中國(guó)儲(chǔ)能網(wǎng)訊:
摘要 人工智能訓(xùn)練的計(jì)算復(fù)雜度逐年猛增,所需的智能算力從每秒千萬(wàn)次運(yùn)算增加到數(shù)百億次,甚至進(jìn)入千億級(jí)別,促進(jìn)了大規(guī)模智算中心的建設(shè)。智算中心主要滿(mǎn)足智算算力的需求,其布局、建設(shè)及維護(hù)方案與傳統(tǒng)的云資源池存在較大差異,當(dāng)前運(yùn)營(yíng)商對(duì)智算中心的布局以及詳細(xì)方案并沒(méi)有統(tǒng)一的建議和參考。分析了大模型發(fā)展帶來(lái)的算力、存儲(chǔ)、組網(wǎng)的需求挑戰(zhàn),對(duì)運(yùn)營(yíng)商智算布局以及算力、存儲(chǔ)、網(wǎng)絡(luò)、維護(hù)管理等提出了相應(yīng)的策略和方案建議。
前言 人工智能聊天機(jī)器人ChatGPT、AI編程工具GitHub Copilot、圖像生成系統(tǒng)Stable Diffusion、視頻生成系統(tǒng)Sora等生成式人工智能(Generative AI,Gen-AI)應(yīng)用和工具產(chǎn)品的出現(xiàn),為文本創(chuàng)建、圖像視頻生成、代碼生成以及研發(fā)流程等工作帶來(lái)了全新的智能體驗(yàn),極大地提升了生產(chǎn)力,提高了生產(chǎn)水平。
Gen-AI應(yīng)用的出現(xiàn)離不開(kāi)大模型的支持。大模型是基于海量參數(shù)進(jìn)行自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型,憑借更強(qiáng)的學(xué)習(xí)能力、更高的精準(zhǔn)度以及更強(qiáng)的泛化能力,正在成為人工智能技術(shù)發(fā)展的焦點(diǎn)。隨著大模型的快速成熟,其參數(shù)規(guī)模呈百萬(wàn)倍增長(zhǎng),隨之而來(lái)的是算力需求的劇增,芯片算力的增長(zhǎng)速度與模型參數(shù)規(guī)模的增長(zhǎng)存在剪刀差,推動(dòng)了超大規(guī)模智算集群的建設(shè)。
作為基礎(chǔ)設(shè)施建設(shè)者和新質(zhì)生產(chǎn)力的推動(dòng)者,電信運(yùn)營(yíng)商正積極推進(jìn)智算布局。本文基于大模型的發(fā)展趨勢(shì)和需求,結(jié)合運(yùn)營(yíng)商的特定優(yōu)勢(shì),提出了智算集群布局以及算力、存儲(chǔ)、網(wǎng)絡(luò)和維護(hù)管理方面的策略和方案建議。
1 大模型的發(fā)展趨勢(shì)和需求分析
1.1 大模型發(fā)展的趨勢(shì)
雖然大模型的概念已經(jīng)深入人心,但是目前沒(méi)有明確界定標(biāo)準(zhǔn)來(lái)判定模型為小模型還是大模型。根據(jù)模型表現(xiàn)和模型算力需求,業(yè)界一般認(rèn)為一個(gè)經(jīng)過(guò)充分訓(xùn)練的百億參數(shù)的模型可認(rèn)定為大模型[1]。大模型遵循的三大統(tǒng)計(jì)特征如下。
a)Scaling Law。模型表現(xiàn)依賴(lài)于模型規(guī)模、計(jì)算量和數(shù)據(jù)量,這些因素之間呈現(xiàn)冪律關(guān)系[2]。
b)Chinchilla Law。模型大小和數(shù)據(jù)量要同等比例擴(kuò)展,即數(shù)據(jù)量需達(dá)到參數(shù)量的20倍,模型訓(xùn)練結(jié)果才能達(dá)到飽和[3]。
c)智能涌現(xiàn)。只有訓(xùn)練計(jì)算超過(guò)1022或訓(xùn)練損失足夠低時(shí),才會(huì)出現(xiàn)智能涌現(xiàn),即在典型人工智能任務(wù)上的能力大幅提升,而和具體模型無(wú)關(guān)[3-4]。
上述三大統(tǒng)計(jì)特征揭示了,隨著參數(shù)模型量越來(lái)越大,模型對(duì)訓(xùn)練所需算力的需求越來(lái)越大,隨著Sora等多模態(tài)視頻模型的興起,參數(shù)量規(guī)模劇增,OpenAI的GPT-4以及Google的Gemini Ultra都宣稱(chēng)達(dá)到了萬(wàn)億級(jí)參數(shù)[5]。參數(shù)量劇增導(dǎo)致訓(xùn)練所需的數(shù)據(jù)量越來(lái)越大,有預(yù)測(cè)認(rèn)為,到2026年文本數(shù)據(jù)將被訓(xùn)練完,圖像數(shù)據(jù)將在2040年前后被用完,合成數(shù)據(jù)將會(huì)是未來(lái)數(shù)據(jù)的主要來(lái)源[6],數(shù)據(jù)量規(guī)模會(huì)再一次量級(jí)躍遷,對(duì)存儲(chǔ)的規(guī)模和性能帶來(lái)更大的挑戰(zhàn)。此外,智算集群的規(guī)模也從百卡發(fā)展到萬(wàn)卡,甚至十萬(wàn)卡級(jí)別,對(duì)網(wǎng)絡(luò)通信的帶寬和時(shí)延要求越來(lái)越高。
1.2 算力需求和挑戰(zhàn)
在Transformer模型結(jié)構(gòu)中,算力需求與模型參數(shù)規(guī)模、數(shù)據(jù)量具有相關(guān)性,具體如表1所示。
表1 算力需求和模型參數(shù)規(guī)模
按照上述關(guān)系,以GPT-3 175B的參數(shù)量(1 746億)為例,其訓(xùn)練算力的需求為6×174.6B×300B=314 000 EFLOPS。若采用910B(376 TFLOPS@FP16)集群,按照GPU利用率為30%,訓(xùn)練28天,則需要約1 150張910B GPU卡。
按照上述測(cè)算,對(duì)于萬(wàn)億參數(shù)模型,則需要萬(wàn)卡級(jí)規(guī)模集群;對(duì)于十萬(wàn)億參數(shù)模型,則需要十萬(wàn)卡級(jí)規(guī)模集群。因此,為了實(shí)現(xiàn)通用人工智能AGI,國(guó)內(nèi)外互聯(lián)網(wǎng)廠商紛紛開(kāi)始“囤卡”。在算力需求倍增的同時(shí),帶來(lái)如下挑戰(zhàn)。
a)對(duì)顯存容量和性能的挑戰(zhàn)。GPU卡中的高帶寬存儲(chǔ)器(High Bandwidth Memory,HBM)是基于3D堆棧工藝的高性能DRAM,其本質(zhì)是將多個(gè)DDR芯片堆疊后和GPU一起封裝。目前,AI算力增長(zhǎng)速度遠(yuǎn)高于顯存容量和性能的增長(zhǎng)速度,以英偉達(dá)A100、H100為例,雖然H100較A100的算力增長(zhǎng)了將近3倍,但顯存容量沒(méi)增長(zhǎng),帶寬只增長(zhǎng)了近2倍,這對(duì)分布式顯存調(diào)度提出了更高的要求[8]。此外,當(dāng)前HBM的主要廠商為海力士、三星和美光,國(guó)產(chǎn)GPU卡可能無(wú)法使用最新的HBM技術(shù),顯存能力演進(jìn)受限。
b)對(duì)散熱和資源的挑戰(zhàn)。從GPU卡的演進(jìn)來(lái)看,GPU模型的算力和功耗成比例增長(zhǎng),昇騰910B芯片TDP為392 W,單臺(tái)訓(xùn)練服務(wù)器功耗達(dá)到5.2 kW。以GPT-3為例,訓(xùn)練所需電量達(dá)到1 287 MW(碳排放為502 t),每天推理需要用電50萬(wàn) kWh,冷卻設(shè)備所需的水達(dá)到70萬(wàn) L,對(duì)電力資源和水資源都是巨大挑戰(zhàn)[9]。
c)對(duì)GPU跨廠家協(xié)同、跨代際演進(jìn)的挑戰(zhàn)??鐝S家GPU因?yàn)檐浖鷳B(tài)、底層算子不同,導(dǎo)致上層模型無(wú)法一次編譯后異構(gòu)執(zhí)行。即使采用同一廠家的GPU,也因?yàn)椴煌吞?hào)GPU的算力、顯存和通信能力甚至算子優(yōu)化不同,共集群訓(xùn)練時(shí)面臨性能損失、無(wú)法發(fā)揮優(yōu)勢(shì)的問(wèn)題。
d)對(duì)供應(yīng)鏈保障的挑戰(zhàn)。受美國(guó)芯片禁令的影響,國(guó)內(nèi)將無(wú)法購(gòu)買(mǎi)國(guó)外先進(jìn)的GPU產(chǎn)品,國(guó)內(nèi)GPU的產(chǎn)能和生態(tài)面臨巨大挑戰(zhàn)。
1.3 存儲(chǔ)需求和挑戰(zhàn)
AI大模型的訓(xùn)練和推理都會(huì)涉及到數(shù)據(jù)的存取。在訓(xùn)練之前的數(shù)據(jù)預(yù)處理階段,需要對(duì)海量數(shù)據(jù)進(jìn)行處理,包括格式對(duì)齊、歸一化、去重、隱私保護(hù)、異常值處理等。訓(xùn)練階段涉及海量小文件的訓(xùn)練數(shù)據(jù)存取和訓(xùn)練過(guò)程中參數(shù)文件的周期性保存;在推理階段,需要讀取本地存儲(chǔ)的模型參數(shù),并對(duì)實(shí)時(shí)樣本進(jìn)行處理,輸出推理結(jié)果。
AI大模型的訓(xùn)練和推理對(duì)存儲(chǔ)帶來(lái)的挑戰(zhàn)如下。
a)對(duì)數(shù)據(jù)訪問(wèn)性能的挑戰(zhàn)。一方面是大量小文件帶來(lái)的元數(shù)據(jù)訪問(wèn)挑戰(zhàn),另一方面則是海量小文件并發(fā)快速讀取、Checkpoint周期保存參數(shù)對(duì)數(shù)據(jù)存取帶來(lái)的挑戰(zhàn)。
b)多模態(tài)數(shù)據(jù)統(tǒng)一訪問(wèn)的挑戰(zhàn)。對(duì)于視頻和圖片多模態(tài)數(shù)據(jù)輸入,會(huì)對(duì)原始文件進(jìn)行特征提取并以小文件的形態(tài)保存,因視頻和圖片原始特征復(fù)雜,處理后數(shù)據(jù)量倍增。此外,為便于后續(xù)對(duì)多模態(tài)原始和特征數(shù)據(jù)的存取,需要建立相應(yīng)的快速檢索機(jī)制和內(nèi)容審核能力。
c)對(duì)數(shù)據(jù)安全的挑戰(zhàn)。復(fù)雜繁多的數(shù)據(jù)處理環(huán)節(jié),導(dǎo)致數(shù)據(jù)處理存在諸多安全風(fēng)險(xiǎn),包括數(shù)據(jù)隱私泄露、數(shù)據(jù)違規(guī)侵權(quán)、數(shù)據(jù)不可追溯、數(shù)據(jù)操作不合規(guī)等。
1.4 組網(wǎng)需求和挑戰(zhàn)
在大模型訓(xùn)練和推理中,主要的關(guān)鍵網(wǎng)絡(luò)和相關(guān)通信挑戰(zhàn)如下。
a)訓(xùn)練數(shù)據(jù)到訓(xùn)練計(jì)算集群的網(wǎng)絡(luò)通信。當(dāng)前數(shù)據(jù)源和數(shù)據(jù)存儲(chǔ)主要靠近人類(lèi)居住密集和業(yè)務(wù)熱點(diǎn)區(qū)域,和自然土地資源、電力資源相對(duì)豐富的西部地區(qū)距離較遠(yuǎn)。在訓(xùn)練時(shí),需將訓(xùn)練數(shù)據(jù)傳輸?shù)轿鞑抗?jié)點(diǎn),這類(lèi)數(shù)據(jù)對(duì)實(shí)時(shí)性要求不高,可以采用快遞硬盤(pán)或者互聯(lián)網(wǎng)專(zhuān)線進(jìn)行傳輸,以節(jié)約成本,但互聯(lián)網(wǎng)專(zhuān)線因業(yè)務(wù)模式的問(wèn)題,當(dāng)前成本相對(duì)較高。以傳輸0.7 PB數(shù)據(jù)為例,采用2.5寸的3.68 TB硬盤(pán)進(jìn)行數(shù)據(jù)存儲(chǔ),需要約50塊硬盤(pán),如果采用航空快遞,1 000 km的快遞成本預(yù)計(jì)為1 000元、時(shí)間預(yù)計(jì)為24 h;若租賃1 Gbit/s有保障的互聯(lián)網(wǎng)專(zhuān)線,按照30 000元/月的價(jià)格(按照每月30天,每天費(fèi)用為1 000元)計(jì)算,約1.5 h可完成數(shù)據(jù)傳輸。
b)訓(xùn)練時(shí)單GPU服務(wù)器的卡間通信。為提升大模型的訓(xùn)練速度,一般會(huì)采用數(shù)據(jù)并行、流水線并行和張量并行,其中張量并行的并行度一般和單GPU服務(wù)器的卡數(shù)量等同,張量并行對(duì)卡間實(shí)時(shí)通信的帶寬和時(shí)延帶來(lái)挑戰(zhàn)。當(dāng)前卡間通信的結(jié)構(gòu)主要有總線結(jié)構(gòu)(例如昇騰HNCCS通信方式)和交換結(jié)構(gòu)(例如英偉達(dá)NvLink通信方式)2種,總線結(jié)構(gòu)因布線復(fù)雜和制程工藝要求較高,帶寬和擴(kuò)展性受限。國(guó)產(chǎn)卡較多采用總線結(jié)構(gòu),卡間互聯(lián)帶寬遠(yuǎn)低于國(guó)外產(chǎn)品,同時(shí)單機(jī)內(nèi)卡規(guī)模數(shù)一般不超過(guò)8,導(dǎo)致張量并行度受限。
c)訓(xùn)練時(shí)GPU服務(wù)器集群的通信。數(shù)據(jù)并行和流水線并行對(duì)集群內(nèi)機(jī)間實(shí)時(shí)通信的帶寬和時(shí)延帶來(lái)挑戰(zhàn)。為了減少計(jì)算單元的閑置,需要在流水線單元的計(jì)算周期內(nèi)完成前序數(shù)據(jù)的同步和通信,一般要求在百毫秒級(jí)完成數(shù)據(jù)通信,按照10GB級(jí)的通信量,集群內(nèi)機(jī)間帶寬應(yīng)至少達(dá)到100 Gbit/s,且隨著單卡算力和吞吐的增加,對(duì)機(jī)間帶寬的需求也同步增加。此外,為了避免數(shù)據(jù)重傳,一般要求集群內(nèi)組網(wǎng)為無(wú)損網(wǎng)絡(luò)。
2 智算中心的部署策略和方案建議
2.1 綠色集約、高效布局
當(dāng)前智算中心有2個(gè)典型選址策略:第一,優(yōu)先選擇“東數(shù)西算”樞紐節(jié)點(diǎn),尤其是西部自然資源豐富的地區(qū),土地和電力資源優(yōu)勢(shì)明顯;第二,聚焦北、上、廣、深等業(yè)務(wù)和大模型產(chǎn)業(yè)活躍的城市與地區(qū)[10],靠近業(yè)務(wù)和數(shù)據(jù)。運(yùn)營(yíng)商因可信安全優(yōu)勢(shì)和充沛的骨干傳輸資源,在布局上具有天然優(yōu)勢(shì),且基本符合上述策略,其中中國(guó)聯(lián)通優(yōu)先在上海、北京、廣東、內(nèi)蒙古開(kāi)展“一基地三高地”智算梯次布局;中國(guó)移動(dòng)規(guī)劃部署“4+N+31+X”數(shù)據(jù)中心,在內(nèi)蒙和林格爾建設(shè)大型單體智算中心;在中國(guó)電信“2+4+31+X+O”的算力布局中,除了內(nèi)蒙古和貴州2個(gè)全國(guó)性云基地,還在上海臨港部署了萬(wàn)卡智算集群。
除布局策略外,智算中心在散熱模式、機(jī)房部署方面還應(yīng)充分考慮低碳綠色、集群組網(wǎng),具體策略和方案建議如下。
a)優(yōu)選液冷散熱模式。液冷技術(shù)可有效降低PUE,提升裝機(jī)密度,且液冷節(jié)點(diǎn)及相關(guān)器件(例如光模塊)的溫度比風(fēng)冷節(jié)點(diǎn)更低,可有效提升可靠性,降低數(shù)據(jù)中心的運(yùn)維成本,提高整體經(jīng)濟(jì)效益。在智算資源池的建設(shè)中,智算訓(xùn)練服務(wù)器應(yīng)優(yōu)先采用液冷技術(shù)。
b)慎用風(fēng)液混合模式。GPU集群長(zhǎng)時(shí)間運(yùn)行時(shí),GPU卡在風(fēng)冷集群的溫度可能達(dá)到100℃以上,為避免過(guò)熱帶來(lái)的故障和風(fēng)險(xiǎn),GPU卡會(huì)進(jìn)行降頻處理,如果風(fēng)、液冷共集群,液冷設(shè)備的GPU卡的高性能就無(wú)法發(fā)揮最大價(jià)值。因此,在智算中心建設(shè)前要做好提前規(guī)劃,避免不必要的損失。
c)單一智算集群的機(jī)房不宜過(guò)度分散。為便于無(wú)損網(wǎng)絡(luò)組網(wǎng)部署和后續(xù)故障定位,建議Leaf與GPU服務(wù)器之間的距離不超過(guò)100 m,即兩者最好同機(jī)房部署;建議Leaf與Spine之間的距離不超過(guò)2 km,當(dāng)Spine與Leaf跨機(jī)房時(shí),建議將所有Spine部署在一側(cè)機(jī)房,盡量減少拉遠(yuǎn)的Leaf數(shù)量。
2.2 多元探索、異構(gòu)優(yōu)化
國(guó)內(nèi)外主要GPU卡的基本情況如表2所示,其中英偉達(dá)GPU卡在算力、顯存、卡間通信、生態(tài)等方面處于領(lǐng)先地位,AMD和Intel的GPU卡在算力上逐步追趕,但是在生態(tài)上仍存在短板;國(guó)內(nèi)則以昇騰GPU卡為主導(dǎo),其他國(guó)產(chǎn)GPU卡不僅算力不足,在實(shí)際規(guī)?;渴鹕弦踩狈Φ湫桶咐?。
表2 國(guó)內(nèi)外主要GPU廠家和相應(yīng)型號(hào)
受政策影響,英偉達(dá)、Intel等國(guó)外芯片廠商的芯片面臨無(wú)法在中國(guó)出售或者改版而導(dǎo)致性能下降的問(wèn)題,而國(guó)產(chǎn)GPU則在能力和生態(tài)上存在差距。
根據(jù)現(xiàn)狀,在算力策略和方案上的建議如下。
a)積極發(fā)展多元算力供給。一方面,應(yīng)發(fā)展多元GPU芯片。GPU芯片影響單位智算算力,已經(jīng)成為制約大模型發(fā)展的瓶頸,鑒于當(dāng)前國(guó)內(nèi)外政策和GPU發(fā)展水平,應(yīng)積極開(kāi)展多元算力芯片適配以及異構(gòu)算力的管理和調(diào)度。另一方面,智算和通算需緊密結(jié)合。AI大模型的前端訪問(wèn)和上層應(yīng)用離不開(kāi)通算,而在訓(xùn)練和推理過(guò)程中,AI大模型也需要通算來(lái)運(yùn)行和處理任務(wù)和數(shù)據(jù)的調(diào)度訪問(wèn)。
b)兼顧多元芯片和單一芯片。多元算力異構(gòu)必然帶來(lái)多個(gè)智算軟件生態(tài),為模型適配和優(yōu)化帶來(lái)挑戰(zhàn),需要進(jìn)行差異化考慮。對(duì)于超千億的大模型的訓(xùn)練,因集群規(guī)模大、訓(xùn)練時(shí)間長(zhǎng)、模型復(fù)雜,建議以單一GPU芯片為主;對(duì)于百億十億等中小模型,其集群規(guī)模在百卡左右,規(guī)模相對(duì)較小、模型適配相對(duì)簡(jiǎn)單,可以進(jìn)行多元芯片探索。
c)兼顧時(shí)效性和芯片演進(jìn)。GPU芯片在不斷迭代更新,對(duì)于跨GPU芯片型號(hào)的組網(wǎng),因?yàn)椴煌吞?hào)GPU的算力、互通、顯存等能力不同,存在木桶效應(yīng),無(wú)法發(fā)揮高性能GPU芯片的效能,建議大規(guī)模集群選擇單一芯片,同時(shí)應(yīng)充分考慮建設(shè)交付周期、未來(lái)業(yè)務(wù)發(fā)展趨勢(shì)、芯片演進(jìn)計(jì)劃等因素。對(duì)于型號(hào)落后的GPU訓(xùn)練芯片,未來(lái)隨著多模態(tài)模型推理對(duì)算力需求的增加,可用于對(duì)視頻生成的推理。
2.3 分層分級(jí)、存算協(xié)同
運(yùn)營(yíng)商本身?yè)碛休^為豐富的數(shù)據(jù)資源,包括內(nèi)部IT系統(tǒng)積累的數(shù)據(jù),也包括網(wǎng)絡(luò)運(yùn)行過(guò)程中海量的性能、告警、故障等運(yùn)行數(shù)據(jù)和用戶(hù)運(yùn)營(yíng)數(shù)據(jù)。上述海量數(shù)據(jù)通過(guò)運(yùn)營(yíng)商骨干網(wǎng)絡(luò)進(jìn)行傳輸,在匯聚、整合之后形成了特有的數(shù)據(jù)資產(chǎn),此過(guò)程積累了數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)傳輸?shù)确矫娴募夹g(shù)。
鑒于上述優(yōu)勢(shì)和積累,對(duì)數(shù)據(jù)存儲(chǔ)方面的策略建議如下。
a)充分發(fā)揮大數(shù)據(jù)技術(shù)的優(yōu)勢(shì)。運(yùn)營(yíng)商經(jīng)過(guò)多年技術(shù)積累,具備在異構(gòu)硬件之上搭建大數(shù)據(jù)平臺(tái),數(shù)據(jù)離線批處理和實(shí)時(shí)流處理的能力,同時(shí)儲(chǔ)備了數(shù)據(jù)清洗、數(shù)據(jù)規(guī)整、數(shù)據(jù)治理的能力。在存儲(chǔ)方面,運(yùn)營(yíng)商可形成對(duì)外開(kāi)放或可授權(quán)的數(shù)據(jù)資產(chǎn),并將數(shù)據(jù)資產(chǎn)與智算服務(wù)相結(jié)合,實(shí)現(xiàn)數(shù)據(jù)增值。
b)做好存力和運(yùn)力的協(xié)同。對(duì)于用戶(hù)數(shù)據(jù)存儲(chǔ)熱點(diǎn)區(qū)域,其存力需求巨大,需要提前做好和智算中心之間的運(yùn)力提升,便于訓(xùn)練數(shù)據(jù)和推理數(shù)據(jù)的傳輸。
c)在具體存儲(chǔ)資源和能力部署上,對(duì)于清洗后的訓(xùn)練樣本、訓(xùn)練中的Checkpoint數(shù)據(jù)等熱數(shù)據(jù),以及未清理的海量數(shù)據(jù)、訓(xùn)練好的模型數(shù)據(jù)等溫冷數(shù)據(jù),因?yàn)閮烧叩脑L問(wèn)頻率和性能需求不同,需分別考慮其存儲(chǔ)方案。
d)對(duì)于熱存儲(chǔ),為保障性能,采用高性能介質(zhì)NVMe SSD,建議優(yōu)選高速并發(fā)NAS協(xié)議,高帶寬接入??紤]到磁盤(pán)陣列性?xún)r(jià)比和擴(kuò)展性的問(wèn)題,后端存儲(chǔ)可以采用Diskless架構(gòu),其典型整體架構(gòu)如圖1所示。以在智算中心中廣泛應(yīng)用的Lustre/GPFS等高性能、面向?qū)ο蟮牟⑿形募到y(tǒng)為例,在Diskless架構(gòu)下,Lustre/GPFS使用“盤(pán)即存儲(chǔ)”的新型NVMe盤(pán)框替換存儲(chǔ)服務(wù)器,可實(shí)現(xiàn)資源的池化共享、按需分配和擴(kuò)展,從而提升資源利用率,降低整體成本,同時(shí)還可以隔離故障,簡(jiǎn)化運(yùn)維管理。另外,從可靠性的角度來(lái)說(shuō),由于Lustre的多個(gè)OSS缺少副本機(jī)制,一個(gè)客戶(hù)端或節(jié)點(diǎn)發(fā)生故障時(shí),存儲(chǔ)在該節(jié)點(diǎn)上的數(shù)據(jù)在重新啟動(dòng)前將不可訪問(wèn),此時(shí)Diskless架構(gòu)的高可靠?jī)?yōu)勢(shì)就更為凸顯。
圖1 采用Diskless架構(gòu)存儲(chǔ)設(shè)備的熱存儲(chǔ)方案
e)對(duì)于溫冷存儲(chǔ),主要考慮性?xún)r(jià)比,應(yīng)配置高密度、大容量的硬盤(pán)??梢赃x擇傳統(tǒng)的分布式對(duì)象存儲(chǔ),或者采用配置多盤(pán)位大容量機(jī)械硬盤(pán)的高密度新型Diskless架構(gòu)存儲(chǔ)設(shè)備。
2.4 前瞻組網(wǎng)、無(wú)損傳輸
當(dāng)前運(yùn)營(yíng)商已經(jīng)部署了布局廣泛的通算資源以及運(yùn)力充沛的網(wǎng)絡(luò)資源。在部署智算中心的過(guò)程中,運(yùn)營(yíng)商可充分發(fā)揮已有的資源優(yōu)勢(shì),主要的組網(wǎng)策略如下。
a)充分考慮和東部地區(qū)數(shù)據(jù)的網(wǎng)絡(luò)通道。智算中心的數(shù)據(jù)多來(lái)自于人口密集、經(jīng)濟(jì)活躍、互聯(lián)網(wǎng)業(yè)務(wù)深入的東部熱點(diǎn)地區(qū),在組網(wǎng)中,智算中心要打通和東部熱點(diǎn)地區(qū)的網(wǎng)絡(luò)通道,使能訓(xùn)練數(shù)據(jù)、推理數(shù)據(jù)的傳輸。
b)集群內(nèi)的組網(wǎng)以終為始,長(zhǎng)遠(yuǎn)規(guī)劃。不同組網(wǎng)方式存在擴(kuò)容上限,需以終期算力規(guī)模確定配套的網(wǎng)絡(luò)設(shè)備,形成終期規(guī)劃方案,并結(jié)合近中遠(yuǎn)期需求進(jìn)行一次性建設(shè)或分期實(shí)施,在最大限度發(fā)揮算力效能的同時(shí),預(yù)留擴(kuò)展能力。
c)廣域跨集群訓(xùn)練要慎重。為滿(mǎn)足訓(xùn)練時(shí)GPU服務(wù)器集群的通信,用于并行通信的網(wǎng)絡(luò)平面按照1∶1的收斂比進(jìn)行組網(wǎng),同時(shí)也因交換機(jī)緩存的限制,交換機(jī)之間的部署距離最遠(yuǎn)為2 km。如果要開(kāi)展廣域跨集群組網(wǎng),按照1∶1的收斂比進(jìn)行拉遠(yuǎn),以1 024 GPU卡為例,在2個(gè)訓(xùn)練中心各部署64臺(tái)GPU服務(wù)器,即512卡,按照英偉達(dá)A100或昇騰910B所需要的200G網(wǎng)絡(luò),參數(shù)面接入交換機(jī)下行到服務(wù)器為512個(gè)200G、上行到參數(shù)面匯聚交換機(jī)為256個(gè)400G,DC間需要256條400G鏈路,成本巨大;如果按照2×400Gbit/s互聯(lián)帶寬(即有一定收斂比),則數(shù)據(jù)發(fā)送總時(shí)延將增加近12.5天,按GPT-3訓(xùn)練時(shí)間30天計(jì)算,將增加40%的訓(xùn)練時(shí)間,且未考慮網(wǎng)絡(luò)設(shè)備出現(xiàn)數(shù)據(jù)包丟失和重傳的問(wèn)題。
基于大模型組網(wǎng)需求和上述策略,智算中心典型組網(wǎng)方案如圖2所示,分為參數(shù)面、樣本面、業(yè)務(wù)面和管理(存儲(chǔ))面4個(gè)平面。
圖2 智算中心典型組網(wǎng)方案
a)參數(shù)面。采用RoCEv2或IB協(xié)議實(shí)現(xiàn)無(wú)損轉(zhuǎn)發(fā),Leaf作為接入節(jié)點(diǎn)的網(wǎng)關(guān)獨(dú)立部署,通過(guò)200 GE鏈路與訓(xùn)練服務(wù)器互聯(lián)。Leaf之上可以部署一層或兩層Spine作為匯聚,每層網(wǎng)絡(luò)之間按1∶1進(jìn)行收斂。充分利用RoCEv2和IB協(xié)議,實(shí)現(xiàn)流量負(fù)載均衡,防止傳統(tǒng)基于流的五元組進(jìn)行hash機(jī)制失效導(dǎo)致負(fù)載不均和網(wǎng)絡(luò)吞吐下降、集群業(yè)務(wù)性能下降。
b)樣本面。采用Spine-Leaf兩級(jí)無(wú)收斂架構(gòu)以滿(mǎn)足帶寬需求,通信協(xié)議RoCEv2可滿(mǎn)足時(shí)延需求,通常樣本面接入交換機(jī)端口為100G。GPU服務(wù)器通過(guò)該網(wǎng)絡(luò)平面訪問(wèn)高性能文件熱存儲(chǔ)。
c)業(yè)務(wù)面/管理(存儲(chǔ))面。業(yè)務(wù)接入交換機(jī)端口通常為25G,且上下行收斂比一般不超過(guò)1∶2.5,業(yè)務(wù)接入交換機(jī)之間的互聯(lián)帶寬建議大于等于單臺(tái)業(yè)務(wù)接入交換機(jī)上行帶寬的1/2,業(yè)務(wù)匯聚交換機(jī)之間的互聯(lián)帶寬建議大于等于單臺(tái)業(yè)務(wù)匯聚交換機(jī)上行帶寬的1/2。
2.5 統(tǒng)一運(yùn)維、全量監(jiān)控
智算中心應(yīng)具備算力、網(wǎng)絡(luò)、存儲(chǔ)統(tǒng)一運(yùn)維能力,統(tǒng)一管理監(jiān)控集群的訓(xùn)練服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)交換機(jī)設(shè)備,提供資源管理、性能監(jiān)控、告警監(jiān)控、光模塊監(jiān)控、日志分析、作業(yè)路徑、健康檢查、故障診斷等集群運(yùn)維功能,具體功能要求建議如表3所示。
表3 智算中心運(yùn)維管理功能建議
基于上述管理能力,形成對(duì)訓(xùn)前和訓(xùn)中的有力支撐。在訓(xùn)前階段,可提前檢查運(yùn)行環(huán)境和組件狀態(tài),降低任務(wù)運(yùn)行失敗的概率;在訓(xùn)中階段,具備分鐘級(jí)的故障感知以及任務(wù)隔離能力,對(duì)于中斷的任務(wù),可聯(lián)動(dòng)斷點(diǎn)續(xù)訓(xùn),進(jìn)行任務(wù)恢復(fù)。
3 結(jié)束語(yǔ)
隨著人工智能技術(shù)的快速發(fā)展,大模型訓(xùn)練對(duì)智能算力的需求呈指數(shù)級(jí)增長(zhǎng),促進(jìn)了大規(guī)模智算中心的建設(shè)。智算中心與傳統(tǒng)云資源池在布局、建設(shè)及維護(hù)方案上存在顯著差異。本文針對(duì)智算中心的建設(shè)提出了一系列策略和方案建議,以應(yīng)對(duì)大模型發(fā)展帶來(lái)的算力、存儲(chǔ)和組網(wǎng)需求的挑戰(zhàn)。
首先,智算中心的選址應(yīng)考慮自然資源豐富的地區(qū),同時(shí)靠近業(yè)務(wù)和數(shù)據(jù)密集區(qū)域,以確保算力資源的有效利用。其次,針對(duì)算力需求,建議發(fā)展多元算力供給,兼顧多元芯片和單一芯片的使用,同時(shí)考慮GPU芯片的迭代更新,以適應(yīng)未來(lái)業(yè)務(wù)的發(fā)展趨勢(shì)。在存儲(chǔ)策略方面,運(yùn)營(yíng)商應(yīng)充分利用大數(shù)據(jù)技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的增值,并做好存力和運(yùn)力的協(xié)同規(guī)劃。在組網(wǎng)方面,應(yīng)充分考慮與東部熱點(diǎn)地區(qū)的網(wǎng)絡(luò)通道,長(zhǎng)遠(yuǎn)規(guī)劃集群內(nèi)組網(wǎng),并慎重考慮廣域跨集群訓(xùn)練的可行性。最后,智算中心的運(yùn)維管理應(yīng)具備算網(wǎng)存統(tǒng)一運(yùn)維能力,提供資源管理、性能監(jiān)控、告警監(jiān)控等功能,以支持大模型的高效運(yùn)行。
本文的分析和建議旨在為運(yùn)營(yíng)商智算中心的規(guī)劃和建設(shè)提供參考,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。