服务器维护-数据中心的能耗焦虑, 到底有没有最优解?

算力正在进入“基建化”的年代。

几年前的时分,每逢电商大促、春晚红包等节点,宕机和救火简直是从不缺席的戏份。近两年却是另一番现象:即便是在618大促这样的流量波峰,大多数电商途径都顶住了高并发的压力,背面离不开算力的迅猛增加。

正如我国信通院在一份研究报告中所提醒的:2016年到2020年期间,我国的算力规划均匀每年增加42%,其间2020年的算力总规划现已到达135EFlops,并仍在坚持55%的高速增加。

仅仅算力高速增加的一起,也带来了新的问题。

01 核算与散热的“零和博弈”

关于不少人来说,“核算”早已不是什么新概念。每一次翻开“绿码”、每一次视频会议、每一次查找点击……都离不开数据中心的处理核算。“核算”在日常日子中的无缝浸透,勾勒出了多彩的数字国际。

可当核算量越来越大,发生的功耗也随之增大。以全球最为闻名的预练习大模型GPT-3为例,一次练习要耗费巨量的算力,需求耗费约19万度的电力,发生85万吨的二氧化碳,将其描述为“耗电怪兽”绝不为过。

假使这些电力用在了“核算”自身,或许不是什么坏消息。究竟在数字经济的年代,有一个闻名的经济学解说,即算力上每投入一元,将带动3-4元的经济产出,“性价比”远高于传统的农牧业和工业生产。

实际的状况却并不达观。依据开源证券研究所的核算成果,一个数据中心的能耗散布中,散热体系的占比高达40%。也便是说,数据中心每耗费一度电,只要一半用在了“核算”上,其他的则糟蹋在了散热、照明等方面。核算和散热简直陷入了一场零和博弈,核算量越大散热耗费的电量越大,假如不耗费满足的动力进步散热才能,将直接影响数据中心的功能、密度和可靠性。

职业界也由此盛行起了PUE的概念,即电源运用功率,用来测算数据中心耗费的一切动力与IT负载耗费的动力的比值,被视为点评数据中心动力功率的重要目标,PUE值越挨近1,标明非IT设备的耗能越少,数据中心的能效水平越高。目前国内大型数据中心的均匀PUE值为1.55,超大型数据中心均匀PUE值也只要1.46。

2020年时国内数据中心的用电量现已超越2000亿千瓦时,占到了用电总量的2.7%,估计2023年数据中心的能耗就将超越2500亿千瓦时,2030年时将超越4000亿千瓦时,用电量占比也将上升到3.7%。就这个视点而言,处理数据中心的能耗问题,现已是摆在案前的扎手应战。

工信部在《新式数据中心开展三年行动计划(2021-2023年)》中,对数据中心的PUE进行了明确规定:2021年末新建大型及以上数据中心的PUE下降到1.35以下,到2023年时要低于1.3。北京、深圳等城市也对新建数据中心提出了严厉要求,其间深圳现已发文鼓舞PUE值低于1.25的数据中心。

联想到“碳达峰与碳中和”的年代背景,低PUE的“绿色核算”现已是不争的趋势。筛选掉高耗能的组件,晋级算力高、空间节省、碳排放低的新组件,现已是许多数据中心无法躲避的实际问题。

02 被捧上神坛的“液冷”技能

在算力正在重塑工业格式的时机面前,数据中心已然是无法回绝的刚需,为数不多的挑选在于进步算力功率并下降能耗,而能否找到新的散热计划,逐步成为核算工业上下游有必要应对的课题。

传统的散热计划以风冷为主,行将空气作为冷媒,把服务器主板、CPU等散发出的热量传递给散热器模块,再使用电扇或空调制冷等方法将热量吹走,也是散热体系耗费数据中心近半电力的首要诱因。

当PUE值被严厉限制,绿色核算逐渐家喻户晓的时分,上世纪80年代就开端测验的“液冷”技能,敏捷成了工业上下游的新焦点。其实“液冷”技能的原理并不杂乱,简略来说便是使用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,经过热交换将服务器的热量排出,并演化出了冷板式、喷淋式、浸没式等多种散热计划。

看似仅仅“冷媒”的改动,却为数据中心的节能降耗带来了许多或许:

比方风冷热传导存在进程杂乱、热阻总和大、换热功率较低一级痛点,在很大程度上限制了数据中心的算力密度,而且常常会发生很大的噪声。液冷技能所呈现出的节能降耗、削减噪声、节省空间的特性,不行谓不诱人。

一个直接的比方便是普渡大学的Bell集群,10个机架的戴尔PowerEdge C6525 服务器直接浸没在冷却液中,运转时发生的热量直接被冷却液吸收,PUE最低可以降到1.05左右,散热所需的功耗比传统计划下降了90%以上。

再比方风冷想要进步散热才能,最“简略粗犷”的做法便是进步电扇转速,可把热量带出去的一起,电扇和硬盘间也会形成大的漩涡,不规则的湍流或许会影响硬盘的读写才能,甚至会因为磁头轰动导致硬盘作废。

液冷技能近乎完美地躲避了这些不利要素,因为液冷计划是一个相对停止的环境,可以有用下降由空气、尘埃和轰动引起的硬件产品故障率,且数据中心一直在低温环境中运转,极大地提升了内部电子元器件的运用寿命。

可以看到的是,液冷技能的呈现和使用,在很大程度上让核算和散热跳出了“囚犯窘境”,对风冷降维冲击的归纳优势,也让液冷技能被不少人捧上神坛。但是和许多新技能相同,液冷计划相同存在天然短板:冷却液的价格堪比茅台,无形中增加了散热的硬性本钱;液冷技能对数据中心的机房环境要求严苛,从头改造的本钱较高;液冷技能下降了PUE,运营本钱却难言优势……

液冷是各种散热计划中毋庸置疑的俊彦,却也要考虑到实际的考量。

03 戴尔科技给出的最优解

就像国家发改委等部委在年头发动的“东数西算”工程,意图是将东部的算力需求转移到西部,堪比“南水北调”的工程量。除了国内东西部电力资源的不平衡,一个重要的要素便是对天然冷源的使用。

有组织从前预算,即便是在现有的散热计划下,即便依照工业均匀电价每千瓦时0.5元来核算,数据中心所在地的气温每下降1℃,10万台服务器的规范数据中心机房每天可节省9.6万元的电费。

这样的行动无疑向外界传递了一个明晰的信号:在液冷技能的价格居高不下的局势下,不或许在短时刻内完全替代风冷,现阶段需求的仍然是多元化的散热计划。应战其实留给了大大小小的IT厂商,到底是All in 理想化的液冷,仍是根植商场的实际诉求,推出多样性的处理计划?

在服务器商场牢牢占有一席之地的戴尔科技,现已给出了自己的答案。

外界遍及将风冷打入“冷宫”的时分,戴尔并未抛弃风冷散热的技能创新,一边使用最佳的核算流体动力学CFD气流模仿技能来优化体系规划,一边推出了将数据中心的温暖废气循环到主空气调节的新风(Fresh Air)体系,结合最新的空气运送处理计划和先进的软件操控算法,改写了风冷能耗的“成绩单”。

比方新一代戴尔PowerEdge系列产品R750,经过合理的散热布局削减过多气流,让服务器的散热能效比前代产品进步了60%,大大下降了作业流程中的动力耗费,一起避免了因过热导致服务器宕机、事务中止的为难。

哪怕是“传统”的风冷散热,戴尔的Fresh Air硬件冷却处理计划也让外界看到了新或许:在冬天为建筑设施供给“免费”的热量,在温暖月份直接将外部空气吸入数据中心,经过削减运转冷水机时刻等方法,进一步下降了服务器维护的运营办理本钱,PUE值相同有时机下降到1.05的水平。

而关于CPU功率超越150w的需求,戴尔科技针对不同的场景供给了冷板式和浸没式两种液冷技能:前者对应的比方有Triton液体冷却体系,将冷却液直接放入服务器sled冷却CPU,不只带来了最高的冷却功率,还下降了冷却液的用量;PowerEdge C6520则是后者的典型代表,以闭环水流替代典型的金属散热器,使服务器可以一起支撑高功率处理器和更高的机架密度。

戴尔科技的答案并不杂乱,比较于对某种技能的过度依靠,戴尔科技的战略是针对客户需求供给不同散热计划的产品,再经过一致能耗办理软件OpenManage Power Center,进步了客户对服务器功耗的可见性和操控性,继而协助客户低本钱、自动化、智能化地应对各种能耗事情,找到合适自己的最优解。

04 写在最终

依据赛迪参谋的猜测,2025年我国浸没式液冷数据中心的商场规划将超越526亿元,商场份额有望打破40%。

站在职业的立场上,液冷散热的高速遍及不失为一个好消息。可对已有的数据中心运营者来说,绿色核算是一件等不得的事,存量的数据中心也需求进步散热才能,找到功能和散热间的新平衡;关于一些寻求“性价比”的客户,下降PUE的途径不该只要液冷散热一种,而是合适自己的产品和计划。

沿循这样的逻辑,供给多样化处理计划的戴尔科技,及其深化商场需求的理性考虑,不失为学习和学习的目标。