官方微信号

详细信息
当前位置: 首页 > 新闻中心
利来国际最老:【最新算力液冷纪要】
发布日期:2024-03-10 02:40:09 来源:利来资源站首页 作者:利来资源首页入口
  降低数据中心的能耗,对数据中心的PUE有要求1.5以下。要满足政策的话,将近五百万台机柜都要改造。 ...

  降低数据中心的能耗,对数据中心的PUE有要求1.5以下。要满足政策的话,将近五百万台机柜都要改造。

  【市场空间】23年全中国冷板在60亿左右,浸没在20亿左右,总体七八十亿,其实量很小的。对于冷板的费用,一台机柜改造大概是5万,500万台机柜就2500亿。

  【行业壁垒】液冷技术壁垒不高,行业壁垒特别高。液冷的技术非常简单的,开发一套液冷系统成本非常低,因为很多产品就是市场可以直接买的。它的难点在于要改服务器。液体替代风冷存在问题就是要改动服务器,而动别人的服务器,将来容易会出现问题。

  【国产替代】电子氟化液有极高的利润,目前十多家国产厂商在做。进展最快的是巨化股份,但未来情况难判断。

  答:国内液冷有4个主流方向,即:喷淋液冷、冷板液冷、单向浸没液冷、 双向浸没液冷,其中后3种技术较成熟,应用较多。在现在的所有液冷系统中,冷板液冷大概占65%,AI这一块用的基本上是单向浸没液冷。在超算领域,高性能服务器基本上都使用双向浸没液冷。单向和双向基本上占到35%左右。

  像冷板,它的极限是单机柜50kW,然后单向浸没,它是一个池子,极限是100kW,即可以对于服务器的发热量和服务器的功率,进行降温,为100kW的服务器一个池子。双向浸没液冷一个机柜可以做到200kW,所以现在用双向浸没液冷对现在的服务器可能有点浪费,因为现在服务器功率密度没有那么高,单向足够了,但超算领域里边基本上是200kW一个服务器,不是一个机柜,所以双向浸没液冷不太可能用到AI或者是传统的云计算数据中心。

  AI和超算单块服务器都可以做到5kw到8kw之间,所以单机机柜都是足足可以做到二三十kw,所以对人工智能计算中心而言,它是必须有液冷的。风冷一般针对10kw以下的机柜,在这里无法使用,可能会导致散热不均匀、局部热点等问题,所以现在在人工智能领域和超算领域是必须用液冷的。现在人工智能用冷板和单向浸没的比较多。

  冷板大的方向是这样。由于现在国家政策要求降低数据中心的能耗,对数据中心的PUE有要求1.5以下。在过去一二十年互联网的发展是中国整体上建了500万台机柜,其中百分之七八十的机柜的能耗PUE都在1.5以上。所以现在北上广深一线城市有明确的政策要求,即1.8以上的必须关停,强制关停;1.6~1.8的是强制改造,即必须把它降下来;1.3~1.6的是梯度电价。所以就导致这500万台机柜现在面临着改造,即降把原来的老机柜,老机房改成液冷的,这块改造成本最低的就是冷板。所以冷板大批量的应用就在老旧机柜的改造,它规模大概在500万台机柜。1.5以上的是80%,然后剩下的基本上都在1.4、1.5,所以要满足政策的线%都要改造。

  Q:现在已经变成液冷服务器的有多少?(过去存量这500万里面,基本上就是已经改造完了,或者已经用了液冷技术的,占比有多大?)

  A:现在有采用液冷技术的。服务器液冷改造技术上很简单,就是拆东西后拆贴板子,即服务器稍微有改动但改动不是很大。

  现在没有一个明确数字,但是从每年液冷的规模看,占比很小。现在每年冷板的数量大概在50亿到60亿之间,23年全中国冷板在60亿左右,浸没在20亿左右,总体七八十亿,其实量很小的。对于冷板的费用,一台机柜改造大概是5万,500万台机柜就2500亿。现在一年中80多个亿,相对于2500亿是很小的一个数。

  Q:市场存量机会确实很大,那么未来就是比如国家对改造的这个时间规划节点是什么,有什么要求吗?

  A:它动力很大,因为这改造省了电,省了罚款,可能一年两年就回本了。现在出现的问题是有很多业务是不能停的,只能一个一个改造。

  各个厂家不一样,特别像金融系统、互联网一些核心业务,不能停下来,否则损失很大,所以这是现在改造速度比较慢的原因。

  一块就是数据中心、云计算,即互联网云计算。这块增量很小了,因为互联网业务基本上饱和,如有美团,抖音。一块是运营商,运营商系统如移动电信联通,也基本上饱和了,新建数据中心的量很小了。所以对于传统的数据中心来说,基本上就是大头就是改造,新建的会很少。

  另外一块人工智能,增量很大。可以做一个对比,据21年统计,过去二十年中国总共建数据中心的算力是150亿,从21年到23年,这三年时间,人工智能这块算力建了50亿,即三年就达到过去20年互联网算力的1/3,所以互联网人工智能这块增量很大,特别大。人工的人工智能计算中心的投资大,粗略的分可以分成两拨人,一个是地方政府,从19年到23年底大概有30个一二线城市都在建数据中心,规模比较小,一般都在50P到200P之间。这块增量很大。

  另一块更大的是企业的投资,企业投资基本上是1000P起步。如阿里、百度腾讯。他们与地方政府最大的差别就是,他们建计算中心是未了未来的发展,因为人工智能是跟各种各业都有关系的,他们要投资未来。到底租了多少,这个没有统计,但他们量很大。

  Q:计算这一块现在比如说国家号召要用更多的国产,如国产芯片。跟海外相比的话,如果用了国产的芯片,是不是对液冷的要求更高了?

  A:首先要明白,现在人工智能芯片有两种,一个是CPU,另外一个是变型运算、图像处理的GPU这两种芯片。GPU现在全球最好的就是英伟达,A100或者H100。它好就在单个芯片算力非常大,非常好,现在用国产的10块芯片或者20块芯片也能达到英伟达的效果,所以国产的芯片性能很差,和英伟达可能差一个数量机,只有人家的10%或者1%的算力,但是可以用100块或者是10块去替代英伟达的好的芯片。

  所以现在国家特别是地方政府,强力推荐国产的。比方说阿里、百度,都在开发自己的人工智能芯片。所以现在对企业或者是国家来说啊,基本上都是以国产为主,特别对地方政府来说,用当地的一些企业生产的GPU可以提升当地的科研能力,让当地企业研发的产品能卖出去,推进他的迭代更新。

  所以这一块对企业,对地方政府来说,都是有很大动力的热情去国产化。国家更是强烈要求希望有国产化。

  A:液冷技术壁垒不高,行业壁垒特别高。液冷的技术非常简单的,对一个任何企业,包括你在内,你花100万请两个人,请两个对这个技术比较懂的人,就可以自己开发出来一套液冷系统,不管是冷板还是浸没都可以做出来。开发一套液冷系统成本非常低,因为很多产品就是市场可以直接买的。它的难点在于要改服务器。液冷的概念与风对应,风冷是用空气吹到服务器里边的CPU,内存,主板等上面去散热,现在液冷就是用液体替代风,液体的散热效果是风的3000倍。液体替代风冷存在问题就是要改动服务器,而动别人的服务器,将来容易会出现问题,互相扯皮。所以现在市场格局基本上都是谁家的服务器就谁作业。如华为的服务器华为作业了,中科曙光的服务器中科曙光作业了,然后浪潮的服务器浪潮作业了……这是市场的基本情况。阿里是特例,阿里也在做液冷,且有很多,因为它的服务器采购量特别大,然后服务器厂家就不敢得罪他,所以他就把服务器给改了。这服务器出问题,服务器厂家还得还得去负责去维保,但是对大部分企业来说,他不敢去跨过服务器去单独找一个跟服务器没关的液冷厂家去做的。另外一个原因就是液冷的利润很高。对服务器厂家来说,举个例子,像浪潮的服务器它可能就不挣钱了,但是他改成液冷之后利润可能比服务器的利润还要高,所以他对业冷这块的兴趣是很大的,是不愿意把这块的利润让出给别人的,所以他自己在做。

  A:假如你买的是华为的服务器啊,曙光都不敢做,做了责任就说不清了,就是说到底是服务器本身的问题,还是液冷系统导致服务器出问题了,说不清楚的。比如说华为很早就自己有个团队在做液冷,不是它的等级伙伴在做。

  A:现在这个单子都不是自己做。不是智能厂家而是钣金厂家做的。因为他不在乎,他认为后边那套东西太费劲了,因为他不做服务器只卖芯片,所以他只是在芯片上配了一个液冷冷板。服务器还差别很大的。因为对英伟达来说,它在芯片上配个冷板不是多少钱,但是它服务器可能就增加30%、20%的利润的。举个例子,英伟达没加这块板子的芯片他卖10万,但是加这块板它是卖13万或者15万,但这块板子可能就500块钱。

  A:头部从CPU开始,CPU这块就是冷板,冷板就是钣金厂家,设计好了板子多大、长宽高多大等,交给钣金厂家,钣金厂家就可以做出来,非常简单的。然后是快速接头,之后是一大堆的不锈钢管件(包括不锈钢管道、不锈钢阀门等),之后是水泵、还原器、冷却泵、冷却塔,包括管道上的一些阀门,这是整套的东西。

  A:现在基本上都是30%,40%左右,因为利润很高啊。它实际上成本能降低的,但是它价值量是升高的。用冷板的线%的风扇,用浸没的话,风扇就全部就取消了,取消之后浸没最大的成本就是里边的电子氟化液。

  电子氟化液现在市场情况是这样,全球98%的供货量都是3M。刚开始的时候才卖2000块钱一升啊,现在降价700块钱一升。现在中国也有生产的,市场上卖的大概十几块钱一升。所以说电子氟化液的利润非常高,就是10几块钱的东西他可能卖到2000块钱一升。

  Q:浸没的服务器的价值和冷板相比的话,比如说还是以普通服务器100万为基准的话,这个有区别吗?

  A:有区别,但是它增加的不多。浸没的话,因为服务器本身没有增加东西,只是改了一些原器件。加价增加不会太大,在130万的基础上增加10%~15%左右。

  Q:您觉得在液冷这个环节,除了服务器厂商可能能靠这个赚到更多的钱之外,您觉得哪个环节可能也会受益于500万台机柜的改造?

  A:最大的就是卖服务器的厂家,别人很难介入。如水泵冷塔,我可能买2000块钱买的,然后配到液冷系统里,可能卖5000块钱,利润很高,行业垄断,所以就导致它利润很高。现在收益的基本都是服务厂家。

  有一些本身做风冷的公司(如英维克)来找过我们,因为风冷的现在产品越来越不好卖了,所以他们在尝试转液冷,因为我们做服务器,所以他们想给我服务器配液冷,但是我们没必要与他们合作。

  A:设备厂商没有增量。部件厂商本来应该是风冷的系统,现在风冷没有了,变成液冷了,但这些东西他还没有过,所以是没有增量。去年是8月份9月份,中国移动中国联通、电信三家合伙出了一个,目的其实就想打破行业壁垒,以统一标准划清责任界限,把服务器厂家以外的液冷厂家给引到这个系统里边来竞价,把液冷的成本打下去。但是现在看没啥动静,假如这个能成的话,可能就是服务器厂家以外的也做液冷的,可能接入进来。

  A:只要能做的都可以接入来竞标嘛。现在市场有的如英维克,都可以来做。他们现在之之所以不敢接入的原因是害怕服务器一旦出问题,他们承担不了这个风险的,因为服务器的价值比液冷系统价格高得多。

  A:三大运营商,移动联通电信他们想干这个事,想把这个分开,分开就可以降低成本。现在进展不知道怎么样了。

  Q:你觉得这个行业存不存在,就是哪个节点,或者说有加速的情况?您觉得这个行业的增速大概会有多大多快?

  一块是AI改造。因为现在AI是没有爆发的,但我们期待AI爆发。现在我们开会,专家都说未来AAA对数据中心的需求量、资产中心的建设量要比过去互联网数据中心的建设量大几十倍,上百倍,上千倍都有可能,因为互联网是与人相关的,到人的极限,十几亿人口就是它的上限了。但是人工智能是没有上限的,人工智能行业是不断在增加,所以他对算力的要求也是没有上限的,对智能中心的建设发展也是没有上限的。

  另外一块就是互联网。惩罚性电价导致利润特别低,公司受不了。什么时候爆发,现在不好说,只能说现在大家都在这绷紧了快要承受不了。