中國儲能網(wǎng)訊:數(shù)據(jù)中心是信息基礎設施中的算力基礎設施。一邊是DeepSeek撬動AI算力需求,數(shù)據(jù)中心上架率提高,另一邊是微軟、亞馬遜等科技巨頭放緩部分人工智能數(shù)據(jù)中心項目。全球AI競賽撕開算力一角,算力究竟過剩還是不夠?
多位業(yè)內(nèi)人士日前在接受澎湃科技采訪時表示,DeepSeek出現(xiàn)后推理算力需求增加,計算效率提升,總體算力需求上漲,但同時各地數(shù)據(jù)中心利用率呈現(xiàn)不均衡狀態(tài),設備老化、供需錯配、垂直生態(tài)體系建設不到位等導致部分算力閑置。
伴隨著人工智能的快速發(fā)展,業(yè)內(nèi)人士均認為,算力需求是無止境的,長期趨勢仍是供不應求,建不建數(shù)據(jù)中心的關鍵在于其能否滿足用戶需求。
算力新浪潮
分布式計算包括超算、智算和以云計算為主的通用計算。在數(shù)據(jù)智能時代,數(shù)據(jù)計算需求助推云計算崛起,云計算面向社會經(jīng)濟的各行各業(yè),以計算實現(xiàn)智能。隨著人工智能跨越式發(fā)展,中高性能的智算成了炙手可熱的計算資源。
國際數(shù)據(jù)公司(IDC)發(fā)布的《中國人工智能計算力發(fā)展評估報告》顯示,2024年,中國智能算力規(guī)模達725.3百億億次/秒(EFLOPS),同比增長74.1%,增幅是同期通用算力增幅(20.6%)的3倍以上;市場規(guī)模為190億美元,同比增長86.9%。
今年以來,DeepSeek的興起激活了推理算力需求?!霸诨ヂ?lián)網(wǎng)時代,數(shù)據(jù)中心提供服務器,以數(shù)據(jù)交換功能為主?,F(xiàn)在數(shù)據(jù)中心轉型成智算中心,在原有互聯(lián)網(wǎng)時代的服務基礎上提供智算算力,滿足人工智能更大的計算需求。”上海超算中心主任李根國表示,這幾年,智算中心建設突飛猛進,大模型特別是DeepSeek的出現(xiàn),讓之前閑置的數(shù)據(jù)中心也都活過來了。伴隨社會對于AI接受度的提升,各地都在部署AI,總的來說算力供不應求。”
2023-2024年間,國內(nèi)“百模大戰(zhàn)”以訓練需求為主,“當訓練需求收斂,基礎模型玩家越來越少,單個用戶用量越來越大,要支撐這樣的客戶,必須具備萬卡以上能力,但大部分廠商沒有,所以千卡、百卡集群全閑置了?!蹦持撬阈袠I(yè)專家向澎湃科技介紹說。早些年各地投建智算,的確是一擁而上,這也是造成算力閑置的原因。但DeepSeek出現(xiàn)后,智算利用率反而有所提高。一是訓練算力規(guī)模需求有所降低,使得行業(yè)模型訓練可以更低的成本開展。二是DeepSeek開源極大促進了場景應用和下游模型改進,讓閑置的千卡、百卡集群也有了用武之地,目前很多地方都算力供不應求。
“我們原來在做超算,這兩年突然發(fā)現(xiàn)智算出現(xiàn)了。智算里一個非常典型的大需求就是大規(guī)模訓練,這其實也是一個超算應用,所以智算的需求也在拉動超算的需求?!背阍坪椭撬阍扑懔Ψ丈滩⑿锌萍糀I云聯(lián)合創(chuàng)始人、AI云事業(yè)部總經(jīng)理趙鴻冰說。脫胎于高性能計算的超算主要服務于國家戰(zhàn)略,面向航空航天、國防、氣象、石油、制造業(yè)、生命科學等領域提供計算服務。
對于目前算力需求的抬升趨勢,上述智算行業(yè)專家判斷,“浪潮不會一下子消退,隨著DeepSeek R2的推出和開源,供不應求的現(xiàn)象還會持續(xù)一段時間。”他認為,以往數(shù)據(jù)中心上架率存在需求錯配,根本原因在于軟件迭代速度快于硬件進化速度,從而使得市場整體供需呈現(xiàn)波浪起伏態(tài)勢。但從趨勢看,供需波動圍繞的軸線,即人工智能發(fā)展曲線長期向好。
饑渴與過剩
“長期來看,人工智能方向沒有錯,長期趨勢一定還是供不應求,但短期內(nèi)可能會存在錯配和冗余?!痹撝撬阈袠I(yè)專家對澎湃科技表示。在他看來,智能算力是智能經(jīng)濟發(fā)展的基礎和瓶頸性制約,需要提前布局,但提前布局就很可能會造成建設浪費,而在產(chǎn)業(yè)發(fā)展進程中,這種超前建設和浪費又很難避免。
事實上,對于算力來說,饑渴和過剩一直同時存在。
根據(jù)沙利文的統(tǒng)計數(shù)據(jù),中國數(shù)據(jù)中心整體的上架率從2019年的53%提升到2022年的58%,相當于四成以上的算力在過去數(shù)年里被閑置。
2024年,國家發(fā)展改革委聯(lián)合有關部門印發(fā)的《數(shù)據(jù)中心綠色低碳發(fā)展專項行動計劃》提出,到2025年底,全國數(shù)據(jù)中心布局更加合理,整體上架率不低于60%。引導智算中心規(guī)范化集群化發(fā)展,促進存量分散數(shù)據(jù)中心集約高效轉型。
從全國范圍來看,目前各地數(shù)據(jù)中心的利用率呈現(xiàn)不均衡狀態(tài)。部分發(fā)達地區(qū)的數(shù)據(jù)中心由于承載了大量互聯(lián)網(wǎng)業(yè)務和AI訓練任務,利用率相對較高,甚至接近飽和。而在一些欠發(fā)達地區(qū)由于業(yè)務需求量不足,數(shù)據(jù)中心利用率相對較低,存在一定的資源浪費現(xiàn)象。
計算需求在東部,能源在西部,因此催生了東數(shù)西算。但算力調(diào)度不同于電力調(diào)度,服務保障能力、數(shù)據(jù)傳輸成本、帶寬和延遲問題都限制了西部數(shù)據(jù)中心的上架率。
東部地區(qū)要使用西部的服務器必須先傳輸數(shù)據(jù),完成計算后結果傳回東部。數(shù)據(jù)一旦超過一定規(guī)模,便凸顯帶寬和延遲問題。“以前生命科學計算和石油勘探計算要用超級計算機計算時,都是人帶著數(shù)據(jù)飛過來,這是最經(jīng)濟的方式。”李根國表示,跨域傳輸數(shù)據(jù)費用高昂,點對點的專線費用一年可達上百萬元,這意味著西部的數(shù)據(jù)中心要想服務東部需求還存在種種需要跨越的障礙,目前看來用于區(qū)域服務是最經(jīng)濟的。
李根國還提到,以往各地數(shù)據(jù)中心建設存在同質(zhì)化競爭,加之建設周期長,“早期建設數(shù)據(jù)中心就是把老的服務器一排排擺進去,后來發(fā)現(xiàn)沒這么多需求,特別是云計算發(fā)展以后都使用虛擬服務器了。”到了智算時代,技術迭代周期加快,若跟不上轉型,在使用效率和成本方面將面臨更大壓力。
上述智算行業(yè)專家表示,即便是當下算力需求大增的情況下,通用計算算力仍然存在過剩情況?!斑^往一擁而上建的傳統(tǒng)數(shù)據(jù)中心,最后要靠自然消化,要么成為云廠商,要么成為云廠商的服務商。但云的自然增長率只有個位數(shù),傳統(tǒng)數(shù)據(jù)中心還是租不出去?!边@是因為這樣的數(shù)據(jù)中心“不具備市場服務能力”,而更深層的原因在于垂直生態(tài)體系建設不到位,云服務能力跟不上。
他表示,數(shù)據(jù)中心是基礎設施,資源調(diào)度和應用服務要依賴軟件服務體系。云廠商自建數(shù)據(jù)中心,實現(xiàn)IaaS(基礎設施即服務)、PaaS(平臺即服務)一體化服務,是提升用戶體驗的基礎?!爸唤ㄔOIaaS是AI服務器加價分銷模型,沒有系統(tǒng)運維和軟件服務能力,其利潤必然是單薄的,很難實現(xiàn)可持續(xù)發(fā)展”
與此同時,數(shù)據(jù)中心是產(chǎn)業(yè)消耗品,老設備耗電大、算力低,建設5年后會被淘汰?!叭绻恍?shù)據(jù)中心是傳統(tǒng)老舊的5000瓦以下單機柜功率的服務器,這樣的中心只能在硬件層面進行改造。如果原來都是一臺臺機器的建設方式,恐怕很難適應大規(guī)模高性能集群的架構?!绷碛袠I(yè)內(nèi)人士對澎湃科技表示。
不過,中信建投證券認為,中國數(shù)據(jù)中心市場均存在一定供需和區(qū)域不平衡的問題,但已經(jīng)出現(xiàn)明顯緩解。與普通數(shù)據(jù)中心相比,智算中心支撐的GPU服務器功率密度增大,為傳統(tǒng)云計算準備的機柜功率無法很好滿足GPU算力的部署需求,同時隨著GPU單卡功耗不斷提升,對于機柜功率密度的要求也在隨之增加,存在大量新建高功率機柜的增量需求。存量舊機房消耗疊加高功率新需求釋放,有望開啟新一輪周期。
新生的算力服務中間商
應對激增的算力需求,除了建設更多的數(shù)據(jù)中心,還需要不斷提升數(shù)據(jù)中心的運營效率,算力業(yè)務正從單一資源提供向綜合服務轉變。由于各大算力中心缺乏運行服務的能力,代運營算力中心的算力服務中間商應運而生。
這些中間商提供運維、調(diào)度和優(yōu)化服務,幫助算力中心提高資源利用率和服務質(zhì)量。在AI大模型訓練需求激增的背景下,代運營服務將成為連接供需雙方的重要橋梁。
欲做AI模型算力“超級放大器”的上海無問芯穹智能科技有限公司相關負責人告訴澎湃科技,企業(yè)算力業(yè)務逐漸從提供傳統(tǒng)的機柜租賃、端口服務等基礎資源,向算力智能化服務延伸。例如部分服務商開始提供智能化調(diào)度、算法優(yōu)化等增值服務,通過算法預測算力需求、優(yōu)化異構資源調(diào)度效率,填補市場空白,滿足AI訓練等高階需求。未來要實現(xiàn)更高效地調(diào)度算力,還需要解決算力資源的異構性整合問題,實現(xiàn)不同品牌和型號計算資源的統(tǒng)一調(diào)度,同時根據(jù)大模型訓練任務的實時需求動態(tài)調(diào)整算力資源。在跨地域算力資源協(xié)同方面,要實現(xiàn)不同區(qū)域間算力資源的靈活調(diào)配和高效利用。未來,具備全棧服務能力的第三方服務商將成為行業(yè)主導力量。
趙鴻冰則認為,算力服務的價值形態(tài)包括IaaS、PaaS、SaaS,大模型爆火后又出現(xiàn)了MaaS(模型即服務),算力服務中間商只有深耕這些價值,才能找到深入的場景和規(guī)模效益?!拔覀兏M岩呀?jīng)建成的中心納入到并行的算力網(wǎng)絡中,匹配客戶需求,讓這些中心發(fā)揮出產(chǎn)能和社會效益。”
“超算支撐了傳統(tǒng)科學的計算,智算支撐了數(shù)據(jù)科學的計算,支持大模型的預訓練、后訓練和推理,無論是超算還是智算,都由社會需求驅動產(chǎn)生?!壁w鴻冰說,算力需求無止境,AI的落地一定會帶動算力的利用率,關鍵在于滿足用戶需求。要按照市場化需求,依據(jù)不同業(yè)務類型,在不同區(qū)域構建不同的資源和產(chǎn)品形態(tài),例如離線的訓練業(yè)務可以使用西部綠色算力資源,實時性業(yè)務在東部運行,相應的電力成本也會偏高?!鞍凑湛蛻粽嬲臉I(yè)務特征場景來設計、建設和運營,其實利用率差距是不大的?!?/span>
在上述智算行業(yè)專家看來,DeepSeek使算力資源得到中期調(diào)整和去泡沫,但真正滿足用戶需求的算力仍然不足。當前推理算力需求持續(xù)增加,模型應用的核心訴求是推理算力能夠更好地響應用戶、降低成本和提高產(chǎn)出。同時,基礎模型仍處于多模態(tài)、多模式擴張階段,高性能算力依然不夠,軟硬件一體道路是未來唯一的選擇,就像DeepSeek以工程優(yōu)化將硬件性能發(fā)揮到極致,軟件能力將越來越重要。
無問芯穹表示,DeepSeek引爆推理需求,未來推理芯片會急劇增多,推理算力需求或是預訓練需求的百倍以上,預計訓練和推理的算力配比將從8:2發(fā)展至2:8。國產(chǎn)芯片會迎來繁榮,應抓住機遇打造全國產(chǎn)AI產(chǎn)業(yè)閉環(huán),實現(xiàn)更可控的自主算力發(fā)展。要面向國外芯片開展極致的軟硬件協(xié)同優(yōu)化,以有限算力實現(xiàn)國產(chǎn)模型能力追趕,推動國產(chǎn)芯片廠商開放底層軟件生態(tài),依托國產(chǎn)和國外芯片搭建“異構”AI系統(tǒng),解決算力缺口。
“我們對大自然的探索、生命的認識還遠遠沒有到頭,科學研究對算力的需求是無止境的。更大的算力可以把模型擴得更大,研究更精細?!崩罡鶉硎?,算力需求不斷增長,但計算形態(tài)并未發(fā)生本質(zhì)變化,計算的基礎仍是以馮·諾依曼結構為主的存算分立集成電路。未來如果實現(xiàn)存算一體,將改變現(xiàn)有計算模式,突破算力難題,提供更加高效的算力支持。