中國儲能網(wǎng)訊:
1、智算中心發(fā)展背景
隨著AI大模型的快速發(fā)展,各種深度學習算法和機器學習模型在復雜性和規(guī)模上都有了顯著增長。為了支撐這些先進模型的訓練與推理,需要強大的計算能力,由此引發(fā)了智算中心(人工智能計算中心) 的技術升級和方案變革。智算中心基礎設施不同于傳統(tǒng)機房,需以算力為中心,在算力需求不斷增長和綠色節(jié)能的政策要求共同驅動下,液冷技術已成為解決智算中心高密散熱難題的首要選擇。
智算中心是指專門配置了用于執(zhí)行人工智能算 法的高性能計算資源的數(shù)據(jù)中心。它們專為訓練復雜的機器學習模型、支持深度學習任務以及處理大 量AI工作負載而設計。智算中心通常搭載了大量高性能的CPU、GPU或TPUs等處理器以提供必要的計算能力,采用并行計算架構來提高處理速度和效率,配有高速且容量巨大的存儲系統(tǒng)用于處理和存儲大量的訓練數(shù)據(jù)集。為了滿足AI訓練常用的數(shù)據(jù)并行、模型并行、流水線并行等混合并行策略的通信需求,需要為芯片間和節(jié)點間提供低延遲、高帶寬的互聯(lián),因此AI訓練集群化帶來了數(shù)據(jù)中心高密化需求,從而衍生出了散熱問題的技術革命。高性能計算(HPC)和AI應用產(chǎn)生的熱量巨大,這對智算中心機房的冷卻系統(tǒng)提出了極高要求,同時減少能源消耗和提高能源效率也是降低運營成本和實現(xiàn)綠色低碳的關鍵。
國家對PUE日益嚴格的要求也在激發(fā)數(shù)據(jù)中心采用更高效的制冷技術。國家發(fā)展改革委、國務院國資委、工信部等七部聯(lián)合印發(fā)的《信息通信行業(yè)綠色低碳發(fā)展行動計劃(2022—2025年)》指出到2025年,新建大型、超大型數(shù)據(jù)中心PUE優(yōu)于1.3;國家發(fā)展改革委、國家數(shù)據(jù)局、中央網(wǎng)信辦、工信部、 國家能源局印發(fā)的《關于深入實施“東數(shù)西算”工程加快構建全國一體化算力網(wǎng)的實施意見》提出推進數(shù)據(jù)中心用能設備節(jié)能降碳改造,推廣液冷等先進散熱技術。在國家政策的大力驅動下,液冷已成為實現(xiàn)數(shù)據(jù)中心綠色低碳發(fā)展的重要技術手段。
2、冷板式液冷技術應用現(xiàn)狀
液冷技術對比傳統(tǒng)風冷散熱技術具有諸多優(yōu)勢。由于液體比空氣具有更高的熱容和熱導率,可以更有效地吸收和傳輸熱量,這意味著液冷系統(tǒng)可以更快速地從熱源(如處理器)中抽取熱量,并有效地將其傳輸?shù)綗峤粨Q器或冷卻塔中,從而使設備運行在較低的溫度下,減少局部熱點的產(chǎn)生,提高設備的穩(wěn)定性和壽命。由于液冷系統(tǒng)的高效率,對冷卻液泵的功率要求遠低于空調或風扇系統(tǒng)所需的功率,減少了電力消耗,降低了運行成本。液冷技術使得服務器可以進行更緊湊的組件布局,減少所需的基礎設施和空間,滿足數(shù)據(jù)中心高密化演進需求。傳統(tǒng)空調冷卻系統(tǒng)依賴于大量使用能量密集的壓縮機和潛在環(huán)境危害的制冷劑(氫氟碳化物),液冷技術減少了對這些制冷劑的依賴,有助于減少溫室氣體排放。
液冷技術主要分為冷板式液冷和浸沒式液冷兩個方向,其中冷板式液冷是目前國內應用最成熟和交付規(guī)模體量最大的液冷方式。冷板式液冷可以兼 容多種服務器架構,容易與現(xiàn)有的空氣冷卻數(shù)據(jù)中心設計整合,使得過渡到使用液冷技術的門檻較低。與浸沒式液冷相比,冷板式液冷的設計和工程實施相對簡單。冷板可直接替代傳統(tǒng)的風冷散熱器安裝到現(xiàn)有的服務器硬件上,對服務器硬件的修改設計要求更低,并且更容易標準化,實現(xiàn)服務器與機柜解耦。冷板式液冷系統(tǒng)相對容易維護,初期投資和運維成本相比浸沒式液冷較低。冷板式液冷技術目前得到了大量的實踐檢驗,解決方案較為豐富,供應鏈相對完善。但在場景應用、方案選擇、成本優(yōu)化、 交付模式、運維模式等方面仍存在諸多挑戰(zhàn)。因此深入研究冷板式液冷技術具有較大的現(xiàn)實意義和發(fā)展空間。
在數(shù)據(jù)中心的冷板式液冷解決方案中,整機柜交付方式與解耦交付方式是兩種不同的商業(yè)模式和工程實施方式。數(shù)據(jù)中心需要綜合考慮需求差異性、 成本、運營效率、生態(tài)成熟度、長期發(fā)展計劃等多方面因素選擇兩種交付方式。
整機柜交付方式指的是由設備廠商預先將服務器、存儲設備、網(wǎng)絡設備、供電系統(tǒng)以及必要的管路連接系統(tǒng)集成為一體柜形式整體交付給用戶側。整機柜交付可以實現(xiàn)快速部署,減少現(xiàn)場安裝和配置的工作量,加快數(shù)據(jù)中心建設部署速度。整機柜設備的所有組件通常都是由同一家廠商提供的,確保了系統(tǒng)的兼容性和可靠性,但是由于液冷系統(tǒng)和IT設備緊密耦合,更換或升級單個組件相比解耦交付方式會更為復雜。整機柜產(chǎn)品在研發(fā)階段對于技術要求較高,生產(chǎn)廠商需具有較高的集成能力和設計能力,系統(tǒng)驗證周期較長,研發(fā)成本較大,不同廠商間易存在技術壁壘。
解耦交付方式指的是液冷機柜與IT設備分開提供和安裝,交付時先部署液冷機柜,隨著需求的增長再逐步部署IT負載,這種方式為用戶側提供了更大的靈活性,可以分階段進行服務器上架,并且可以選擇不同廠商的IT設備配合特定的液冷機柜,根據(jù)業(yè)務需求進行定制和優(yōu)化。解耦交付相比整機柜交付而言可以通過形成統(tǒng)一的設計標準來減少產(chǎn)品研發(fā)成本,降低對生產(chǎn)廠商的技術能力要求,減輕供應鏈壓力。解耦后整個系統(tǒng)更加白盒化,可促進液冷生態(tài)良性發(fā)展,為用戶側節(jié)省成本。因此解耦交付有助于推動整個液冷生態(tài)朝著標準化、經(jīng)濟化、 規(guī)?;焖侔l(fā)展。
3、冷板式液冷解耦化研究
冷板式液冷系統(tǒng)的工作原理是通過冷板(通常由銅、鋁等高導熱金屬構成的封閉腔體)將發(fā)熱元器件的熱量間接傳遞給封閉在循環(huán)管路中的冷卻液體,然后通過冷卻液體的循環(huán)將熱量帶走。其主要組成部分包括冷板、冷卻液、分集液器、流體連接器、 冷卻液分配單元(CDU)、室外冷卻設備、供電系統(tǒng)等。解耦冷板式液冷系統(tǒng)的特點主要體現(xiàn)在IT設備與液冷機柜生產(chǎn)來源不同,可能存在冷卻液兼容材質、流體連接器接口類型、供電形式等方面的差異, 導致在交付適配時無法使用。實現(xiàn)冷板液冷系統(tǒng)解耦化的關鍵問題在于如何保證液冷機柜與不同IT設備之間的兼容性和運行可靠性。因此需要對流體連接器、冷卻液、供電形式等方面進行統(tǒng)一接口定義實現(xiàn)標準化。
3.1 流體連接器
流體連接器是一種不依靠工具、能夠反復連接和斷開的連接組件,具有快速、簡便、安全的特點,可以實現(xiàn)流體的傳輸與通斷,是連接服務器與機柜的核心組件,冷板式液冷的解耦化進程需依托流體連接器的標準化產(chǎn)品定義、完善的第三方測試體系建設及規(guī)?;a(chǎn)品驗證等多維度舉措來實現(xiàn)。流體連接器的傳輸介質為液體或氣體,具有雙向自密封功能,插合和斷開過程中不會有液體泄漏,在液冷系統(tǒng)敏捷交付要求下扮演著至關重要的角色。其安裝簡單、操作快捷,大大提高了電子設備的可維護性。在冷板式液冷解耦中,需定義好流體連接器的類型、 材質、公差等重要規(guī)格,以保證流體連接器的安全可靠性,防止冷卻液泄露帶來設備受損、業(yè)務中斷甚至安全問題。
根據(jù)操作方式,流體連接器可以分為手插式和盲插式兩大類別。如圖1和圖2所示,手插流體連接器與盲插流體連接器相比,內部密封設計、閥芯 結構完全相同,區(qū)別僅在于鎖緊機構和浮動結構。手插流體連接器是指流體連接器在公頭和母頭進行插合和分離時,需要通過人為手動的形式進行插拔。當手動插合后,流體連接器通過自身的鎖緊機構進行鎖定,實現(xiàn)產(chǎn)品的快速連接和鎖緊,并確保產(chǎn)品密封可靠。手插流體連接器通常公頭為固定端,母頭為活動端,且母頭與軟管配合使用,達到柔性補償?shù)哪康摹?
盲插流體連接器與手插則不同,在公頭和母頭插合、分離過程中均不需要人為手動去操作流體連接器,而是依靠設備與框架之間的導軌、導向,通過推/拉動設備實現(xiàn)與框架之間的連接/分離。當盲插流體連接器插合后,流體連接器不具備鎖緊機構, 依靠外部裝置鎖定。盲插流體連接器可以節(jié)省外部軟管,從而節(jié)省大量布線空間。盲插結構集成度更高, 適用于服務器高密化的使用場景,支持向未來免人工安裝、維護演進。
實現(xiàn)冷板式液冷解耦化需重點保證流體連接器的安全可靠連接。在流體連接器設計及使用過程中會有很多因素導致故障,從而引發(fā)密封失效、漏液、腐蝕等問題,嚴重影響液冷系統(tǒng)安全性。其中常見故障原因及解決建議如表1所示,需對冷卻液介質、 流體連接器材質及結構設計進行嚴格要求,對操作流程進行嚴格把控,以保證解耦后的液冷系統(tǒng)穩(wěn)定可靠運行。
3.2 冷卻液
在解耦冷板式液冷系統(tǒng)中,冷卻液是至關重要的組成部分,它的主要功能是傳輸熱量,將熱量從熱源輸送到散熱器或熱交換器中,然后將熱量釋放到周圍環(huán)境中。冷卻液的類型和質量對整個系統(tǒng)的性能、效率和可靠性都有顯著的影響。
冷卻液應具有良好的熱傳導性能,能夠快速吸收和傳遞熱量,從而提高系統(tǒng)的散熱效率。冷卻液還應具有良好的流動特性,使得在泵送和循環(huán)過程中的壓降和能耗降至最低。冷卻液應維持穩(wěn)定的化學性質,即在工況溫度范圍內仍能維持緩蝕、抑菌、 阻垢等作用。目前市面上冷板式液冷主流冷卻液包括乙二醇型冷卻液、丙二醇型冷卻液、去離子水型冷卻液。
冷卻液應與系統(tǒng)中部件使用的材料兼容、如銅或鋁冷板、不銹鋼管道、不銹鋼或黃銅閥件、橡膠軟管、橡膠密封件、塑料水泵葉輪等,以避免兼容性不佳引起的腐蝕泄漏、密封件失效等問題。冷卻液應具備緩蝕、抑菌、阻垢、抗泡的功能,需要添加緩蝕劑,以減緩金屬部件的腐蝕;需要添加抑菌劑, 避免微生物滋長導致系統(tǒng)產(chǎn)生沉積物污染;需要添加阻垢劑,防止冷卻液中水垢積聚;需要添加消泡劑, 防止冷卻液循環(huán)過程中產(chǎn)生大量氣泡影響傳熱效率。
因此在解耦液冷系統(tǒng)中需針對冷卻液進行充分的使用性能評測,確保冷卻液可支持解耦液冷系統(tǒng)安全、 可靠、長效運行。
冷卻液未來也應考慮朝著低電導率配方體系進行研發(fā)設計,防止液體泄漏后帶來的電氣短路和設備損壞風險。在液冷技術廣泛應用的發(fā)展趨勢下, 冷卻液的使用還應兼顧生物安全與環(huán)境友好性,冷卻液的回收和處理也應遵守相關的環(huán)保監(jiān)管法規(guī)。這不僅是對液冷系統(tǒng)性能提升的需求響應,更是企業(yè)履行社會責任、推動可持續(xù)發(fā)展的重要體現(xiàn)。要保證液冷系統(tǒng)長期穩(wěn)定運行,科學的選擇和維護冷卻液至關重要。冷卻液需定期監(jiān)測來對其有效性進行評估和預警,通過監(jiān)測結果來進行維護處置或整體更換。必要時根據(jù)項目需求可設置在線水質監(jiān)測傳感器,實時監(jiān)測關鍵性能指標;或設置在線凈化處理裝置,維持冷卻液的可用性。
3.3 供電形式
目前液冷系統(tǒng)中機柜內服務器的供電形式主要為分布式供電和集中供電兩種形式。分布供電指的是電源分布在每個服務器節(jié)點上,主要由電源分配單元(PDU)和每個服務器節(jié)點內的電源組成。集中供電指的是將服務器電源集中部署在機柜內部的電源框中進行池化管理,統(tǒng)一為服務器供電,主要由電源框、電源模塊、供電母排和電源連接器組成。
分布式供電在數(shù)據(jù)中心被廣泛應用著,通常通過PDU為服務器提供雙路供電,可充分保證供電安全性和可靠性。如采用智能PDU則能實現(xiàn)監(jiān)控和管理功能,如環(huán)境監(jiān)測、警報設置、電源使用報告、 自動化控制等。分布式供電形式在服務器高密部署的場景存在一定的局限性。由于服務器功率不斷升高,單柜內服務器數(shù)量不斷增加,分布式供電需配置的PDU數(shù)量也在增多,走線問題變得更加棘手, 需要更多的柜內空間才能滿足要求。因此在單機柜功率密度迅速增長的未來,集中供電形式可能更適用于液冷機柜使用。
集中供電將各個服務器中的電源模塊統(tǒng)一池化集成在了機柜內部的電源框中,將輸入電通過電源框及電源模塊進行轉換,輸出直流電通過供電母排直接實現(xiàn)服務器供電。集中供電可實現(xiàn)服務器與機柜盲插設計,免除電纜布線空間,配合盲插流體連接器可大幅提升服務器安裝運維效率。綜合來說, 集中供電形式是未來冷板液冷供電演進的重要方向。
4、結語
在人工智能快速發(fā)展的背景下,實現(xiàn)冷板液冷服務器與機柜解耦是是生態(tài)發(fā)展的不可逆需求,具有多方面優(yōu)勢。解耦設計使得數(shù)據(jù)中心更能適應快速變化的AI技術,確保能夠高效、靈活并可持續(xù)地支持AI應用的發(fā)展。對于整個液冷生態(tài)來說,實現(xiàn)服務器與機柜解耦有助于整個行業(yè)向標準化方向發(fā)展,加快液冷相關技術創(chuàng)新和迭代速度,降低技術門檻,擴大生態(tài)參與度,促進液冷生態(tài)可持續(xù)發(fā)展。本文針對解耦冷板式液冷系統(tǒng)中流體連接器、冷卻液和供電形式的選擇進行了研究,為解耦冷板式液冷系統(tǒng)中規(guī)劃設計提供理論依據(jù)。