中國儲能網(wǎng)訊:當(dāng)前,大模型等人工智能技術(shù)的發(fā)展,引發(fā)算力需求爆發(fā)式增長,算力布局不斷加速。“十四五”規(guī)劃和2035年遠景目標綱要指出,建設(shè)高速泛在、天地一體、集成互聯(lián)、安全高效的信息基礎(chǔ)設(shè)施,增強數(shù)據(jù)感知、傳輸、存儲和運算能力。
數(shù)字經(jīng)濟以數(shù)據(jù)資源為關(guān)鍵要素,數(shù)字基礎(chǔ)設(shè)施是數(shù)字經(jīng)濟時代的“高速公路”,運力、算力、存力三者協(xié)同發(fā)展,數(shù)字基礎(chǔ)設(shè)施才能發(fā)揮數(shù)據(jù)的要素價值,充分釋放數(shù)字經(jīng)濟活力。當(dāng)前,我國算力、存力、運力現(xiàn)狀如何?如何打造“算、存、運”協(xié)同的高效算力?
“算、存、運”需高效協(xié)同
數(shù)據(jù)顯示,算力、存力、運力如果做好高效協(xié)同,一個AI算力中心的效率可能會提升50%。目前,許多發(fā)達國家已經(jīng)把算、存、運三者涉及的科學(xué)技術(shù)作為創(chuàng)新前沿,并投入重金發(fā)展。
近日,工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,提出到2025年,計算力方面,算力規(guī)模超過300EFLOPS,智能算力占比達到35%,東西部算力平衡協(xié)調(diào)發(fā)展。運載力方面,國家樞紐節(jié)點數(shù)據(jù)中心集群間基本實現(xiàn)不高于理論時延1.5倍的直連網(wǎng)絡(luò)傳輸,重點應(yīng)用場所光傳送網(wǎng)(OTN)覆蓋率達到80%,骨干網(wǎng)、城域網(wǎng)全面支持IPv6,SRv6等創(chuàng)新技術(shù)使用占比達到40%。存儲力方面,存儲總量超過1800EB,先進存儲容量占比達到30%以上,重點行業(yè)核心數(shù)據(jù)、重要數(shù)據(jù)災(zāi)備覆蓋率達到100%。
中國作為全球最大的算力市場之一,數(shù)據(jù)中心機架總規(guī)模超過760萬架標準機架,算力總規(guī)模達197EFlops,位居全球第二,但存在利用率不高等問題,甚至通用算力利用率只有百分之十幾,已存在算力與運力、存力發(fā)展不平衡的問題。
中國工程院院士倪光南指出,當(dāng)前AI算力中心蓬勃興起,但對算力基礎(chǔ)設(shè)施理解有片面性。存力、算力、運力共同構(gòu)成數(shù)字基礎(chǔ)設(shè)施核心底座,對于AI智能計算中心,中國算力中心要重視存力、算力和運力均衡配置,不能偏廢失調(diào),才能取得最大的經(jīng)濟效益和社會效益。
算力就是計算能力,運力是網(wǎng)絡(luò)運載能力,存力則是數(shù)據(jù)存儲能力。怎樣理解這三者之間的關(guān)系?我們不妨把數(shù)字經(jīng)濟想象為一臺大型計算機,那么算力就是中央處理器,運力則是主板電路,存力就是內(nèi)存。這樣來看,要讓這臺大型計算機發(fā)揮出最大效能,僅有強大的中央處理器顯然是不夠的。
存儲必須重構(gòu)
高存力充分釋放算力,實現(xiàn)GPU/NPU利用率提升30%。高存力通過全局元數(shù)據(jù)、算子下推、向量檢索、緩存加速等數(shù)據(jù)加速引擎,可縮短數(shù)據(jù)預(yù)處理周期,提高訓(xùn)練集加載效率和推理準確度,減少訓(xùn)練中斷,GPU/NPU利用率有效提升。
按照測算,我國將在2025年成為世界上數(shù)據(jù)量最大的國家,但公開數(shù)據(jù)顯示,美國存算比為1.11TB/GFlops,而中國為0.42 TB/GFlops,存力顯然跟不上數(shù)據(jù)量的增速。數(shù)據(jù)量的爆炸式增長和存儲需求的持續(xù)升級,對企業(yè)的存儲系統(tǒng)造成前所未有的巨大壓力,關(guān)鍵業(yè)務(wù)、通用業(yè)務(wù)對存儲能力的訴求不斷提升。
新華三集團存儲產(chǎn)品線總經(jīng)理兼首席產(chǎn)品經(jīng)理關(guān)天舒在接受《通信產(chǎn)業(yè)報》全媒體記者采訪時表示,存儲介質(zhì)的演進,從應(yīng)用的角度看,存儲架構(gòu)亟需一次顛覆傳統(tǒng)的跨越式創(chuàng)新,隨著高速網(wǎng)絡(luò)、RDMA、NVMe等技術(shù)的發(fā)展,以及數(shù)據(jù)池化、湖倉一體化趨勢的深入,文件、對象、大數(shù)據(jù)的多協(xié)議融合部署需求快速增長。在AIGC的催化下,存儲行業(yè)正在迎來一場技術(shù)變革,基于LLM大模型的應(yīng)用跟以往任何應(yīng)用都不一樣,它會對數(shù)據(jù)存儲的容量、性能、可靠性、管理等帶來顛覆性的影響。未來的存儲必須重構(gòu),才能更好地適配AI時代用戶對數(shù)據(jù)存儲的新需求。
事實上,存力并不僅僅指容量,還包括安全可靠、綠色低碳等綜合能力,只有這樣才能讓數(shù)據(jù)存得下、跑得快、用得好。算力只有與運力、存力均衡配置,才能提升使用效率,真正發(fā)揮出數(shù)據(jù)要素的價值。
運力要跟得上
算力需求越大,運力越要跟得上,高運力充分釋放算力+存力,實現(xiàn)算力提升20%。高運力具備高網(wǎng)絡(luò)數(shù)據(jù)吞吐能力,是算力和存力充分釋放的關(guān)鍵。網(wǎng)絡(luò)丟包、流量不均,則數(shù)據(jù)傳輸?shù)托?,增加計算和存儲等待,算力性能顯著降低。
以“東數(shù)西算”為例,旨在利用西部更豐富的算力資源,去支撐東部更多的算力需求。卻有諸多困難,對應(yīng)用實時性要求高的“熱數(shù)據(jù)”,想要傳到西部,所需的傳輸網(wǎng)絡(luò)不僅要滿足低時延、高可靠性、大帶寬、廣覆蓋等要求,還得面臨跨區(qū)域、跨層級連接的挑戰(zhàn),要么傳輸效率很低,要么傳輸成本高昂。以超算為例,目前運輸存儲超算數(shù)據(jù)的硬盤還是通過卡車、火車、飛機,算完了再把結(jié)果取回來,這些算力還都是孤島。
業(yè)內(nèi)專家認為,這就需要有一個新的技術(shù)解決方案——公用專網(wǎng)的技術(shù),它不同于公網(wǎng)和專網(wǎng),而是一種類似于能提供專網(wǎng)的公網(wǎng),像專網(wǎng)一樣安全、保證質(zhì)量,又像公網(wǎng)一樣經(jīng)濟、方便靈活。
在亞信科技首席技術(shù)官、高級副總裁、IEEE Fellow歐陽曄博士看來,首先,需要高通量的網(wǎng)絡(luò)傳輸基礎(chǔ)設(shè)施,結(jié)合400G、OXC的全光傳輸系統(tǒng),在算力節(jié)點間構(gòu)筑高效、靈活、超大帶寬的全光運力底座。其次,面向重點業(yè)務(wù)提供確定性網(wǎng)絡(luò)保障,減少數(shù)據(jù)重傳帶來的資源、算效損耗。最后,需要提升網(wǎng)絡(luò)與業(yè)務(wù)的融合性,通過可編程網(wǎng)絡(luò)技術(shù),有控制、有選擇地開放芯片的報文處理和轉(zhuǎn)發(fā)邏輯,實現(xiàn)網(wǎng)絡(luò)服務(wù)能力與業(yè)務(wù)需求的高度適配。
統(tǒng)籌發(fā)力
算力是集信息計算力、網(wǎng)絡(luò)運載力、數(shù)據(jù)存儲力于一體的新型生產(chǎn)力,主要通過算力基礎(chǔ)設(shè)施向社會提供服務(wù)。面向經(jīng)濟社會發(fā)展和國家重大戰(zhàn)略需求,要穩(wěn)步提升算力綜合供給能力,著力強化運力高效承載,不斷完善存力靈活保障,持續(xù)增強算力賦能成效,全面推動算力綠色安全發(fā)展,為數(shù)字經(jīng)濟高質(zhì)量發(fā)展注入新動能。
倪光南建議,中國算力中心要建設(shè)領(lǐng)先的運力設(shè)施,用更領(lǐng)先的網(wǎng)絡(luò)構(gòu)建千億物聯(lián)能力;打造堅實的算力設(shè)施,在通用計算、人工智能計算等多樣性計算領(lǐng)域不斷突破;構(gòu)筑可靠的存力設(shè)施,讓數(shù)據(jù)存得下、跑得快、用得好。
“目前來看,暫時無法給出一個確切的時間來預(yù)測算力規(guī)模達到300EFLOPS的時間,但是可以肯定的是,隨著技術(shù)的不斷進步和市場需求的增加,算力增長的加速度會逐步凸顯?!敝袊?lián)通研究院未來網(wǎng)絡(luò)研究部總監(jiān)曹暢表示,要實現(xiàn)300EFLOPS的算力規(guī)模,需要在技術(shù)、投資、市場等多個方面取得突破性的進展。需要研發(fā)更高效的算法和計算架構(gòu),需要采用更先進的芯片和硬件設(shè)備,需要優(yōu)化網(wǎng)絡(luò)連接和數(shù)據(jù)傳輸效率等。此外,還需要大量的投資來支持基礎(chǔ)設(shè)施建設(shè),技術(shù)的研發(fā)和應(yīng)用。