中國(guó)儲(chǔ)能網(wǎng)訊:構(gòu)筑AI時(shí)代的數(shù)字底座。
數(shù)字時(shí)代下,誰(shuí)是智算中心的領(lǐng)航者?智算中心將會(huì)給行業(yè)帶來(lái)哪些影響?如何充分發(fā)揮智算中心的技術(shù)優(yōu)勢(shì),構(gòu)筑數(shù)字經(jīng)濟(jì)算網(wǎng)新底座,助力產(chǎn)業(yè)數(shù)字化發(fā)展?
智算中心發(fā)展面臨五大挑戰(zhàn)
近日,地處京津冀交匯的黃金區(qū)位的中國(guó)聯(lián)通京津冀數(shù)字科技產(chǎn)業(yè)園投產(chǎn)運(yùn)營(yíng)正式啟動(dòng)。首期已交付一棟研發(fā)樓和4500架8KW機(jī)柜,將為智能產(chǎn)業(yè)數(shù)字科技提供智算服務(wù)與生態(tài)企業(yè)科創(chuàng)載體。在工程進(jìn)度方面創(chuàng)造了多個(gè)“史無(wú)前例”,項(xiàng)目從土建開(kāi)工到4500架機(jī)柜投產(chǎn)交付,整體用時(shí)不足一年,真正做到了業(yè)界最快。
中國(guó)聯(lián)通相關(guān)技術(shù)人員告訴《通信產(chǎn)業(yè)報(bào)》全媒體記者,當(dāng)前,智算中心發(fā)展面臨五大挑戰(zhàn)。
第一,如何應(yīng)對(duì)組網(wǎng)規(guī)模的大幅增長(zhǎng)。AI應(yīng)用計(jì)算量呈幾何級(jí)數(shù)增長(zhǎng),算法模型正向巨量化發(fā)展,人工智能模型參數(shù)在過(guò)去十年增長(zhǎng)了十萬(wàn)倍,當(dāng)前AI超大模型的參數(shù)已達(dá)千億甚至萬(wàn)億級(jí)別。訓(xùn)練大模型毫無(wú)疑問(wèn)需要超高算力,并且對(duì)顯存需求也很高。而且,在訓(xùn)練過(guò)程中,各類(lèi)中間變量均需要存儲(chǔ),且中間變量在單次迭代中也會(huì)不斷增加。更高的顯存消耗,意味著需要幾十上百個(gè)GPU才能完整存儲(chǔ)一個(gè)模型的訓(xùn)練過(guò)程。組網(wǎng)規(guī)模的大幅增長(zhǎng),將導(dǎo)致網(wǎng)絡(luò)管理更加復(fù)雜,擁塞控制、負(fù)載均衡的難度增加等問(wèn)題,為智算中心發(fā)展帶來(lái)嚴(yán)峻挑戰(zhàn)。
第二,如何滿(mǎn)足超高帶寬的迫切需求。在A(yíng)I大模型訓(xùn)練場(chǎng)景下,機(jī)內(nèi)與機(jī)外的集合通信操作將產(chǎn)生大量的通信數(shù)據(jù)量。服務(wù)器內(nèi)GPU要求支持高速互聯(lián)協(xié)議,進(jìn)一步避免GPU通信過(guò)程中依靠CPU內(nèi)存緩存數(shù)據(jù)的多次拷貝操作;機(jī)間GPU的高速互聯(lián)也對(duì)網(wǎng)絡(luò)的單端口帶寬、節(jié)點(diǎn)間的可用鏈路數(shù)量,及網(wǎng)絡(luò)總帶寬提出了更高需求。
第三,如何解決網(wǎng)絡(luò)時(shí)延及抖動(dòng)問(wèn)題。當(dāng)網(wǎng)絡(luò)拓?fù)渑c通信數(shù)據(jù)量確定時(shí),在數(shù)據(jù)通信傳輸過(guò)程中產(chǎn)生的網(wǎng)絡(luò)時(shí)延主要由動(dòng)態(tài)時(shí)延情況所決定。除時(shí)延外,網(wǎng)絡(luò)變化因素引入的時(shí)延抖動(dòng)也可能導(dǎo)致集合通信的效率變低,從而影響AI大模型的訓(xùn)練效率。因此,如何降低計(jì)算通信時(shí)延、減少網(wǎng)絡(luò)抖動(dòng)、提升網(wǎng)絡(luò)吞吐是充分釋放AI大模型智算中心算力所面臨的重要挑戰(zhàn)。
第四,如何維持網(wǎng)絡(luò)的穩(wěn)定高效。過(guò)去5年時(shí)間,AI模型參數(shù)量從61M增長(zhǎng)到540B,翻了近1萬(wàn)倍,面對(duì)如此大的變化,集群算力已成為解決大模型訓(xùn)練問(wèn)題的有效方案。而在算力集群中,網(wǎng)絡(luò)系統(tǒng)的可用性又對(duì)整個(gè)集群的計(jì)算穩(wěn)定性起著關(guān)鍵性作用。一方面,集群中一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的故障可能會(huì)影響數(shù)十個(gè)甚至更多的計(jì)算節(jié)點(diǎn)的連通性,降低系統(tǒng)算力的完整性;另一方面,網(wǎng)絡(luò)保證了集群內(nèi)的資源共享,相較于單個(gè)計(jì)算節(jié)點(diǎn)不容易被隔離,因此性能波動(dòng)會(huì)導(dǎo)致所有計(jì)算資源的利用率受影響。所以,在A(yíng)I大模型訓(xùn)練任務(wù)周期中,維持網(wǎng)絡(luò)的穩(wěn)定高效是極其重要的目標(biāo),對(duì)網(wǎng)絡(luò)運(yùn)維帶來(lái)了新的挑戰(zhàn)。
第五,如何實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)化部署。智能無(wú)損網(wǎng)絡(luò)的構(gòu)建往往基于RDMA協(xié)議及擁塞控制機(jī)制,但與之相伴隨的是一系列復(fù)雜多樣化的配置。其中,任一個(gè)參數(shù)配置錯(cuò)誤都可能會(huì)影響到業(yè)務(wù)的性能,還有可能會(huì)引出一些不符合預(yù)期的問(wèn)題。因此,實(shí)現(xiàn)高效或自動(dòng)化部署配置能夠有效地提升大模型集群系統(tǒng)的可靠性與效率。由于A(yíng)I大模型訓(xùn)練中集群規(guī)模更大,會(huì)進(jìn)一步增大配置的復(fù)雜度,如何實(shí)現(xiàn)多臺(tái)并行部署配置、自動(dòng)選擇擁塞控制機(jī)制相關(guān)參數(shù),以及根據(jù)網(wǎng)卡類(lèi)型與業(yè)務(wù)類(lèi)型選擇相關(guān)配置等自動(dòng)化部署配置,是智算中心發(fā)展面臨的又一大挑戰(zhàn)。
如何應(yīng)對(duì)智算中心發(fā)展挑戰(zhàn)?
作為數(shù)字經(jīng)濟(jì)時(shí)代的關(guān)鍵生產(chǎn)力,隨著人工智能、數(shù)字孿生、元宇宙等新興技術(shù)的發(fā)展,算力需求規(guī)模呈爆發(fā)式增長(zhǎng),智算中心的重要性愈發(fā)凸顯。智算中心不僅為企業(yè)提供強(qiáng)大的數(shù)據(jù)處理和分析能力,還通過(guò)智能算法幫助企業(yè)實(shí)現(xiàn)業(yè)務(wù)優(yōu)化和創(chuàng)新,促進(jìn)企業(yè)的產(chǎn)業(yè)數(shù)字化升級(jí)。
天津移動(dòng)規(guī)劃技術(shù)部算網(wǎng)能力室經(jīng)理李強(qiáng)在接受《通信產(chǎn)業(yè)報(bào)》全媒體記者采訪(fǎng)時(shí)表示,智算中心是指基于智能化技術(shù)和算法的數(shù)據(jù)中心,它不僅具備通用數(shù)據(jù)中心的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等基礎(chǔ)功能,還更加注重?cái)?shù)據(jù)的智能化處理和應(yīng)用,以實(shí)現(xiàn)更高效、更智能的數(shù)據(jù)管理和應(yīng)用服務(wù)。智算中心和通用數(shù)據(jù)中心在多個(gè)方面存在顯著的不同,主要體現(xiàn)在算力供給、客戶(hù)受眾、網(wǎng)絡(luò)架構(gòu)等方面。
一個(gè)智算中心需要多種技術(shù)和產(chǎn)業(yè)鏈企業(yè)的支撐,以確保其順利運(yùn)行并滿(mǎn)足各種復(fù)雜的計(jì)算需求,具體包括IT基礎(chǔ)設(shè)施供應(yīng)商、數(shù)據(jù)中心建設(shè)與運(yùn)營(yíng)企業(yè)、智算服務(wù)供應(yīng)商、云服務(wù)供應(yīng)商、AI算法,以及模型開(kāi)發(fā)商和軟件開(kāi)發(fā)商。
在李強(qiáng)看來(lái),首先,智算中心技術(shù)在快速地演進(jìn),需要有敏銳的技術(shù)觸覺(jué)。其次,大模型訓(xùn)練要求算力更加集中,規(guī)模更大,對(duì)智算中心基礎(chǔ)設(shè)施提出更高要求。最后,交付中的硬件集成和軟件集成難度加大。為構(gòu)筑數(shù)字經(jīng)濟(jì)算網(wǎng)新底座,助力產(chǎn)業(yè)數(shù)字化發(fā)展,智算中心應(yīng)該健康發(fā)展并發(fā)揮其優(yōu)勢(shì)。
第一,構(gòu)建高效的基礎(chǔ)設(shè)施。運(yùn)營(yíng)商及互聯(lián)網(wǎng)廠(chǎng)商正牽頭大規(guī)模推進(jìn)智算中心建設(shè),政府層面對(duì)于算力基礎(chǔ)設(shè)施的“新基建”已成為各實(shí)體行業(yè)及資本市場(chǎng)期待與關(guān)注的焦點(diǎn)。智算中心作為盤(pán)活數(shù)據(jù)資源、整合AI算法的載體,向上拉動(dòng)智算硬件巨大的需求,向下促進(jìn)AI應(yīng)用繁榮,是AI時(shí)代重要的戰(zhàn)略資源。當(dāng)前,智算中心由“資源服務(wù)”向“應(yīng)用服務(wù)”轉(zhuǎn)變,產(chǎn)業(yè)進(jìn)一步豐富。
第二,合理規(guī)劃布局。智算中心的建設(shè)應(yīng)該與地區(qū)經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)布局相結(jié)合,避免盲目建設(shè)和資源浪費(fèi);應(yīng)該根據(jù)區(qū)域產(chǎn)業(yè)發(fā)展需求,合理規(guī)劃智算中心的布局和規(guī)模,確保其與當(dāng)?shù)禺a(chǎn)業(yè)數(shù)字化發(fā)展的需求相匹配。
第三,加強(qiáng)數(shù)據(jù)安全保障。智算中心涉及大量數(shù)據(jù)的存儲(chǔ)和處理,數(shù)據(jù)安全保障至關(guān)重要;應(yīng)該建立健全數(shù)據(jù)安全保障體系,加強(qiáng)數(shù)據(jù)安全管理和隱私保護(hù),確保數(shù)據(jù)的安全性和可靠性。
智算中心應(yīng)該與當(dāng)?shù)禺a(chǎn)業(yè)數(shù)字化轉(zhuǎn)型緊密結(jié)合,為企業(yè)提供智能化解決方案和服務(wù),推動(dòng)傳統(tǒng)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型和升級(jí)。同時(shí),積極培育新興數(shù)字經(jīng)濟(jì)產(chǎn)業(yè),推動(dòng)數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)的深度融合。
李強(qiáng)表示,當(dāng)前,各省份均在部署算力規(guī)劃建設(shè)。未來(lái),我國(guó)將持續(xù)優(yōu)化算力設(shè)施建設(shè)布局,促進(jìn)東西部地區(qū)算力高效互補(bǔ)和協(xié)同聯(lián)動(dòng),推動(dòng)算力結(jié)構(gòu)多元配置,逐步提升智能算力占比,推動(dòng)智能算力與通用算力協(xié)同,滿(mǎn)足不同類(lèi)型算力的業(yè)務(wù)需求。