數據中心的能耗焦慮, 到底有沒有最優解?
算力正在進入“基建化”的時代。
幾年前的時候,每當電商大促、春晚紅包等節點,宕機和救火幾乎是從不缺席的戲份。近兩年卻是另一番景象:即便是在618大促這樣的流量波峰,大多數電商平臺都頂住了高并發的壓力,背后離不開算力的迅猛增長。
正如中國信通院在一份研究報告中所揭示的:2016年到2020年期間,中國的算力規模平均每年增長42%,其中2020年的算力總規模已經達到135EFlops,并仍在保持55%的高速增長。
只是算力高速增長的同時,也帶來了新的問題。
01 計算與散熱的“零和博弈”
對于不少人來說,“計算”早已不是什么新概念。每一次打開“綠碼”、每一次視頻會議、每一次搜索點擊……都離不開數據中心的處理計算?!坝嬎恪痹谌粘I钪械臒o縫滲透,勾勒出了多彩的數字世界。
可當計算量越來越大,產生的功耗也隨之增大。以全球最為知名的預訓練大模型GPT-3為例,一次訓練要消耗巨量的算力,需要消耗約19萬度的電力,產生85萬噸的二氧化碳,將其形容為“耗電怪獸”絕不為過。
倘若這些電力用在了“計算”本身,或許不是什么壞消息。畢竟在數字經濟的時代,有一個著名的經濟學解釋,即算力上每投入一元,將帶動3-4元的經濟產出,“性價比”遠高于傳統的農牧業和工業生產。
現實的情況卻并不樂觀。根據開源證券研究所的統計結果,一個數據中心的能耗分布中,散熱系統的占比高達40%。也就是說,數據中心每耗費一度電,只有一半用在了“計算”上,其他的則浪費在了散熱、照明等方面。計算和散熱幾乎陷入了一場零和博弈,計算量越大散熱消耗的電量越大,如果不消耗足夠的能源提高散熱能力,將直接影響數據中心的性能、密度和可靠性。
行業內也由此流行起了PUE的概念,即電源使用效率,用來測算數據中心消耗的所有能源與IT負載消耗的能源的比值,被視為評價數據中心能源效率的重要指標,PUE值越接近1,表明非IT設備的耗能越少,數據中心的能效水平越高。目前國內大型數據中心的平均PUE值為1.55,超大型數據中心平均PUE值也只有1.46。
2020年時國內數據中心的用電量已經超過2000億千瓦時,占到了用電總量的2.7%,預計2023年數據中心的能耗就將超過2500億千瓦時,2030年時將超過4000億千瓦時,用電量占比也將上升到3.7%。就這個角度而言,解決數據中心的能耗問題,已經是擺在案前的棘手挑戰。
工信部在《新型數據中心發展三年行動計劃(2021-2023年)》中,對數據中心的PUE進行了明確規定:2021年底新建大型及以上數據中心的PUE降低到1.35以下,到2023年時要低于1.3。北京、深圳等城市也對新建數據中心提出了嚴格要求,其中深圳已經發文鼓勵PUE值低于1.25的數據中心。
聯想到“碳達峰與碳中和”的時代背景,低PUE的“綠色計算”已經是不爭的趨勢。淘汰掉高耗能的組件,升級算力高、空間節省、碳排放低的新組件,已經是很多數據中心無法規避的現實問題。
02 被捧上神壇的“液冷”技術
在算力正在重塑產業格局的機遇面前,數據中心已然是無法拒絕的剛需,為數不多的選擇在于提高算力效率并降低能耗,而能否找到新的散熱方案,逐漸成為計算產業上下游必須應對的課題。
傳統的散熱方案以風冷為主,即將空氣作為冷媒,把服務器主板、CPU等散發出的熱量傳遞給散熱器模塊,再利用風扇或空調制冷等方式將熱量吹走,也是散熱系統消耗數據中心近半電力的主要誘因。
當PUE值被嚴格限定,綠色計算漸漸深入人心的時候,上世紀80年代就開始嘗試的“液冷”技術,迅速成了產業上下游的新焦點。其實“液冷”技術的原理并不復雜,簡單來說就是利用礦物油、氟化液等絕緣低沸點的冷卻液作為冷媒,通過熱交換將服務器的熱量排出,并演變出了冷板式、噴淋式、浸沒式等多種散熱方案。
看似只是“冷媒”的改變,卻為數據中心的節能降耗帶來了諸多可能:
比如風冷熱傳導存在過程復雜、熱阻總和大、換熱效率較低等痛點,在很大程度上制約了數據中心的算力密度,并且常常會產生很大的噪聲。液冷技術所呈現出的節能降耗、減少噪聲、節約空間的特性,不可謂不誘人。
一個直接的例子就是普渡大學的Bell集群,10個機架的戴爾PowerEdge C6525 服務器直接浸沒在冷卻液中,運行時產生的熱量直接被冷卻液吸收,PUE最低可以降到1.05左右,散熱所需的功耗比傳統方案降低了90%以上。
再比如風冷想要提高散熱能力,最“簡單粗暴”的做法就是提高風扇轉速,可把熱量帶出去的同時,風扇和硬盤間也會形成大的漩渦,不規則的湍流可能會影響硬盤的讀寫能力,甚至會因為磁頭震動導致硬盤報廢。
液冷技術近乎完美地規避了這些不利因素,由于液冷方案是一個相對靜止的環境,可以有效降低由空氣、灰塵和震動引起的硬件產品故障率,且數據中心始終在低溫環境中運行,極大地提升了內部電子元器件的使用壽命。
可以看到的是,液冷技術的出現和應用,在很大程度上讓計算和散熱跳出了“囚徒困境”,對風冷降維打擊的綜合優勢,也讓液冷技術被不少人捧上神壇。然而和很多新技術一樣,液冷方案同樣存在天然短板:冷卻液的價格堪比茅臺,無形中增加了散熱的硬性成本;液冷技術對數據中心的機房環境要求苛刻,重新改造的成本較高;液冷技術降低了PUE,運營成本卻難言優勢……
液冷是各種散熱方案中毋庸置疑的翹楚,卻也要考慮到現實的考量。
03 戴爾科技給出的最優解
就像國家發改委等部委在年初啟動的“東數西算”工程,目的是將東部的算力需求轉移到西部,堪比“南水北調”的工程量。除了國內東西部電力資源的不平衡,一個重要的因素就是對自然冷源的利用。
有機構曾經估算,即使是在現有的散熱方案下,即使按照工業平均電價每千瓦時0.5元來計算,數據中心所在地的氣溫每降低1℃,10萬臺服務器的標準數據中心機房每天可節約9.6萬元的電費。
這樣的舉措無疑向外界傳遞了一個清晰的信號:在液冷技術的價格居高不下的局面下,不可能在短時間內徹底取代風冷,現階段需要的仍然是多元化的散熱方案。挑戰其實留給了大大小小的IT廠商,到底是All in 理想化的液冷,還是根植市場的現實訴求,推出多樣性的解決方案?
在服務器市場牢牢占據一席之地的戴爾科技,已經給出了自己的答案。
外界普遍將風冷打入“冷宮”的時候,戴爾并未放棄風冷散熱的技術創新,一邊利用最佳的計算流體動力學CFD氣流模擬技術來優化系統設計,一邊推出了將數據中心的溫暖廢氣循環到主空氣調節的新風(Fresh Air)系統,結合最新的空氣輸送解決方案和先進的軟件控制算法,刷新了風冷能耗的“成績單”。
比如新一代戴爾PowerEdge系列產品R750,通過合理的散熱布局減少過多氣流,讓服務器的散熱能效比前代產品提高了60%,大大降低了工作流程中的能源消耗,同時避免了因過熱導致服務器宕機、業務中斷的尷尬。
哪怕是“傳統”的風冷散熱,戴爾的Fresh Air硬件冷卻解決方案也讓外界看到了新可能:在冬季為建筑設施提供“免費”的熱量,在溫暖月份直接將外部空氣吸入數據中心,通過減少運行冷水機時間等方式,進一步降低了服務器的運營管理成本,PUE值同樣有機會降低到1.05的水平。
而對于CPU功率超過150w的需求,戴爾科技針對不同的場景提供了冷板式和浸沒式兩種液冷技術:前者對應的例子有Triton液體冷卻系統,將冷卻液直接放入服務器sled冷卻CPU,不僅帶來了最高的冷卻效率,還降低了冷卻液的用量;PowerEdge C6520則是后者的典型代表,以閉環水流取代典型的金屬散熱器,使服務器能夠同時支持高功率處理器和更高的機架密度。
戴爾科技的答案并不復雜,相比于對某種技術的過度依賴,戴爾科技的策略是針對客戶需求提供不同散熱方案的產品,再通過統一能耗管理軟件OpenManage Power Center,提高了客戶對服務器功耗的可見性和控制性,繼而幫助客戶低成本、自動化、智能化地應對各種能耗事件,找到適合自己的最優解。
04 寫在最后
根據賽迪顧問的預測,2025年中國浸沒式液冷數據中心的市場規模將超過526億元,市場份額有望突破40%。
站在行業的立場上,液冷散熱的高速普及不失為一個好消息??蓪σ延械臄祿行倪\營者來說,綠色計算是一件等不得的事,存量的數據中心也需要提高散熱能力,找到性能和散熱間的新平衡;對于一些追求“性價比”的客戶,降低PUE的渠道不應只有液冷散熱一種,而是適合自己的產品和方案。
沿循這樣的邏輯,提供多樣化解決方案的戴爾科技,及其深入市場需求的理性思考,不失為借鑒和學習的對象。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)