中國(guó)儲(chǔ)能網(wǎng)訊:數(shù)據(jù)中心是信息基礎(chǔ)設(shè)施中的算力基礎(chǔ)設(shè)施。一邊是DeepSeek撬動(dòng)AI算力需求,數(shù)據(jù)中心上架率提高,另一邊是微軟、亞馬遜等科技巨頭放緩部分人工智能數(shù)據(jù)中心項(xiàng)目。全球AI競(jìng)賽撕開(kāi)算力一角,算力究竟過(guò)剩還是不夠?
多位業(yè)內(nèi)人士日前在接受澎湃科技采訪時(shí)表示,DeepSeek出現(xiàn)后推理算力需求增加,計(jì)算效率提升,總體算力需求上漲,但同時(shí)各地?cái)?shù)據(jù)中心利用率呈現(xiàn)不均衡狀態(tài),設(shè)備老化、供需錯(cuò)配、垂直生態(tài)體系建設(shè)不到位等導(dǎo)致部分算力閑置。
伴隨著人工智能的快速發(fā)展,業(yè)內(nèi)人士均認(rèn)為,算力需求是無(wú)止境的,長(zhǎng)期趨勢(shì)仍是供不應(yīng)求,建不建數(shù)據(jù)中心的關(guān)鍵在于其能否滿足用戶需求。
算力新浪潮
分布式計(jì)算包括超算、智算和以云計(jì)算為主的通用計(jì)算。在數(shù)據(jù)智能時(shí)代,數(shù)據(jù)計(jì)算需求助推云計(jì)算崛起,云計(jì)算面向社會(huì)經(jīng)濟(jì)的各行各業(yè),以計(jì)算實(shí)現(xiàn)智能。隨著人工智能跨越式發(fā)展,中高性能的智算成了炙手可熱的計(jì)算資源。
國(guó)際數(shù)據(jù)公司(IDC)發(fā)布的《中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》顯示,2024年,中國(guó)智能算力規(guī)模達(dá)725.3百億億次/秒(EFLOPS),同比增長(zhǎng)74.1%,增幅是同期通用算力增幅(20.6%)的3倍以上;市場(chǎng)規(guī)模為190億美元,同比增長(zhǎng)86.9%。
今年以來(lái),DeepSeek的興起激活了推理算力需求。“在互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)中心提供服務(wù)器,以數(shù)據(jù)交換功能為主?,F(xiàn)在數(shù)據(jù)中心轉(zhuǎn)型成智算中心,在原有互聯(lián)網(wǎng)時(shí)代的服務(wù)基礎(chǔ)上提供智算算力,滿足人工智能更大的計(jì)算需求。”上海超算中心主任李根國(guó)表示,這幾年,智算中心建設(shè)突飛猛進(jìn),大模型特別是DeepSeek的出現(xiàn),讓之前閑置的數(shù)據(jù)中心也都活過(guò)來(lái)了。伴隨社會(huì)對(duì)于AI接受度的提升,各地都在部署AI,總的來(lái)說(shuō)算力供不應(yīng)求。”
2023-2024年間,國(guó)內(nèi)“百模大戰(zhàn)”以訓(xùn)練需求為主,“當(dāng)訓(xùn)練需求收斂,基礎(chǔ)模型玩家越來(lái)越少,單個(gè)用戶用量越來(lái)越大,要支撐這樣的客戶,必須具備萬(wàn)卡以上能力,但大部分廠商沒(méi)有,所以千卡、百卡集群全閑置了?!蹦持撬阈袠I(yè)專家向澎湃科技介紹說(shuō)。早些年各地投建智算,的確是一擁而上,這也是造成算力閑置的原因。但DeepSeek出現(xiàn)后,智算利用率反而有所提高。一是訓(xùn)練算力規(guī)模需求有所降低,使得行業(yè)模型訓(xùn)練可以更低的成本開(kāi)展。二是DeepSeek開(kāi)源極大促進(jìn)了場(chǎng)景應(yīng)用和下游模型改進(jìn),讓閑置的千卡、百卡集群也有了用武之地,目前很多地方都算力供不應(yīng)求。
“我們?cè)瓉?lái)在做超算,這兩年突然發(fā)現(xiàn)智算出現(xiàn)了。智算里一個(gè)非常典型的大需求就是大規(guī)模訓(xùn)練,這其實(shí)也是一個(gè)超算應(yīng)用,所以智算的需求也在拉動(dòng)超算的需求?!背阍坪椭撬阍扑懔Ψ?wù)商并行科技AI云聯(lián)合創(chuàng)始人、AI云事業(yè)部總經(jīng)理趙鴻冰說(shuō)。脫胎于高性能計(jì)算的超算主要服務(wù)于國(guó)家戰(zhàn)略,面向航空航天、國(guó)防、氣象、石油、制造業(yè)、生命科學(xué)等領(lǐng)域提供計(jì)算服務(wù)。
對(duì)于目前算力需求的抬升趨勢(shì),上述智算行業(yè)專家判斷,“浪潮不會(huì)一下子消退,隨著DeepSeek R2的推出和開(kāi)源,供不應(yīng)求的現(xiàn)象還會(huì)持續(xù)一段時(shí)間?!彼J(rèn)為,以往數(shù)據(jù)中心上架率存在需求錯(cuò)配,根本原因在于軟件迭代速度快于硬件進(jìn)化速度,從而使得市場(chǎng)整體供需呈現(xiàn)波浪起伏態(tài)勢(shì)。但從趨勢(shì)看,供需波動(dòng)圍繞的軸線,即人工智能發(fā)展曲線長(zhǎng)期向好。
饑渴與過(guò)剩
“長(zhǎng)期來(lái)看,人工智能方向沒(méi)有錯(cuò),長(zhǎng)期趨勢(shì)一定還是供不應(yīng)求,但短期內(nèi)可能會(huì)存在錯(cuò)配和冗余?!痹撝撬阈袠I(yè)專家對(duì)澎湃科技表示。在他看來(lái),智能算力是智能經(jīng)濟(jì)發(fā)展的基礎(chǔ)和瓶頸性制約,需要提前布局,但提前布局就很可能會(huì)造成建設(shè)浪費(fèi),而在產(chǎn)業(yè)發(fā)展進(jìn)程中,這種超前建設(shè)和浪費(fèi)又很難避免。
事實(shí)上,對(duì)于算力來(lái)說(shuō),饑渴和過(guò)剩一直同時(shí)存在。
根據(jù)沙利文的統(tǒng)計(jì)數(shù)據(jù),中國(guó)數(shù)據(jù)中心整體的上架率從2019年的53%提升到2022年的58%,相當(dāng)于四成以上的算力在過(guò)去數(shù)年里被閑置。
2024年,國(guó)家發(fā)展改革委聯(lián)合有關(guān)部門印發(fā)的《數(shù)據(jù)中心綠色低碳發(fā)展專項(xiàng)行動(dòng)計(jì)劃》提出,到2025年底,全國(guó)數(shù)據(jù)中心布局更加合理,整體上架率不低于60%。引導(dǎo)智算中心規(guī)范化集群化發(fā)展,促進(jìn)存量分散數(shù)據(jù)中心集約高效轉(zhuǎn)型。
從全國(guó)范圍來(lái)看,目前各地?cái)?shù)據(jù)中心的利用率呈現(xiàn)不均衡狀態(tài)。部分發(fā)達(dá)地區(qū)的數(shù)據(jù)中心由于承載了大量互聯(lián)網(wǎng)業(yè)務(wù)和AI訓(xùn)練任務(wù),利用率相對(duì)較高,甚至接近飽和。而在一些欠發(fā)達(dá)地區(qū)由于業(yè)務(wù)需求量不足,數(shù)據(jù)中心利用率相對(duì)較低,存在一定的資源浪費(fèi)現(xiàn)象。
計(jì)算需求在東部,能源在西部,因此催生了東數(shù)西算。但算力調(diào)度不同于電力調(diào)度,服務(wù)保障能力、數(shù)據(jù)傳輸成本、帶寬和延遲問(wèn)題都限制了西部數(shù)據(jù)中心的上架率。
東部地區(qū)要使用西部的服務(wù)器必須先傳輸數(shù)據(jù),完成計(jì)算后結(jié)果傳回東部。數(shù)據(jù)一旦超過(guò)一定規(guī)模,便凸顯帶寬和延遲問(wèn)題?!耙郧吧茖W(xué)計(jì)算和石油勘探計(jì)算要用超級(jí)計(jì)算機(jī)計(jì)算時(shí),都是人帶著數(shù)據(jù)飛過(guò)來(lái),這是最經(jīng)濟(jì)的方式?!崩罡鶉?guó)表示,跨域傳輸數(shù)據(jù)費(fèi)用高昂,點(diǎn)對(duì)點(diǎn)的專線費(fèi)用一年可達(dá)上百萬(wàn)元,這意味著西部的數(shù)據(jù)中心要想服務(wù)東部需求還存在種種需要跨越的障礙,目前看來(lái)用于區(qū)域服務(wù)是最經(jīng)濟(jì)的。
李根國(guó)還提到,以往各地?cái)?shù)據(jù)中心建設(shè)存在同質(zhì)化競(jìng)爭(zhēng),加之建設(shè)周期長(zhǎng),“早期建設(shè)數(shù)據(jù)中心就是把老的服務(wù)器一排排擺進(jìn)去,后來(lái)發(fā)現(xiàn)沒(méi)這么多需求,特別是云計(jì)算發(fā)展以后都使用虛擬服務(wù)器了?!钡搅酥撬銜r(shí)代,技術(shù)迭代周期加快,若跟不上轉(zhuǎn)型,在使用效率和成本方面將面臨更大壓力。
上述智算行業(yè)專家表示,即便是當(dāng)下算力需求大增的情況下,通用計(jì)算算力仍然存在過(guò)剩情況。“過(guò)往一擁而上建的傳統(tǒng)數(shù)據(jù)中心,最后要靠自然消化,要么成為云廠商,要么成為云廠商的服務(wù)商。但云的自然增長(zhǎng)率只有個(gè)位數(shù),傳統(tǒng)數(shù)據(jù)中心還是租不出去?!边@是因?yàn)檫@樣的數(shù)據(jù)中心“不具備市場(chǎng)服務(wù)能力”,而更深層的原因在于垂直生態(tài)體系建設(shè)不到位,云服務(wù)能力跟不上。
他表示,數(shù)據(jù)中心是基礎(chǔ)設(shè)施,資源調(diào)度和應(yīng)用服務(wù)要依賴軟件服務(wù)體系。云廠商自建數(shù)據(jù)中心,實(shí)現(xiàn)IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))一體化服務(wù),是提升用戶體驗(yàn)的基礎(chǔ)?!爸唤ㄔO(shè)IaaS是AI服務(wù)器加價(jià)分銷模型,沒(méi)有系統(tǒng)運(yùn)維和軟件服務(wù)能力,其利潤(rùn)必然是單薄的,很難實(shí)現(xiàn)可持續(xù)發(fā)展”
與此同時(shí),數(shù)據(jù)中心是產(chǎn)業(yè)消耗品,老設(shè)備耗電大、算力低,建設(shè)5年后會(huì)被淘汰?!叭绻恍?shù)據(jù)中心是傳統(tǒng)老舊的5000瓦以下單機(jī)柜功率的服務(wù)器,這樣的中心只能在硬件層面進(jìn)行改造。如果原來(lái)都是一臺(tái)臺(tái)機(jī)器的建設(shè)方式,恐怕很難適應(yīng)大規(guī)模高性能集群的架構(gòu)。”另有業(yè)內(nèi)人士對(duì)澎湃科技表示。
不過(guò),中信建投證券認(rèn)為,中國(guó)數(shù)據(jù)中心市場(chǎng)均存在一定供需和區(qū)域不平衡的問(wèn)題,但已經(jīng)出現(xiàn)明顯緩解。與普通數(shù)據(jù)中心相比,智算中心支撐的GPU服務(wù)器功率密度增大,為傳統(tǒng)云計(jì)算準(zhǔn)備的機(jī)柜功率無(wú)法很好滿足GPU算力的部署需求,同時(shí)隨著GPU單卡功耗不斷提升,對(duì)于機(jī)柜功率密度的要求也在隨之增加,存在大量新建高功率機(jī)柜的增量需求。存量舊機(jī)房消耗疊加高功率新需求釋放,有望開(kāi)啟新一輪周期。
新生的算力服務(wù)中間商
應(yīng)對(duì)激增的算力需求,除了建設(shè)更多的數(shù)據(jù)中心,還需要不斷提升數(shù)據(jù)中心的運(yùn)營(yíng)效率,算力業(yè)務(wù)正從單一資源提供向綜合服務(wù)轉(zhuǎn)變。由于各大算力中心缺乏運(yùn)行服務(wù)的能力,代運(yùn)營(yíng)算力中心的算力服務(wù)中間商應(yīng)運(yùn)而生。
這些中間商提供運(yùn)維、調(diào)度和優(yōu)化服務(wù),幫助算力中心提高資源利用率和服務(wù)質(zhì)量。在AI大模型訓(xùn)練需求激增的背景下,代運(yùn)營(yíng)服務(wù)將成為連接供需雙方的重要橋梁。
欲做AI模型算力“超級(jí)放大器”的上海無(wú)問(wèn)芯穹智能科技有限公司相關(guān)負(fù)責(zé)人告訴澎湃科技,企業(yè)算力業(yè)務(wù)逐漸從提供傳統(tǒng)的機(jī)柜租賃、端口服務(wù)等基礎(chǔ)資源,向算力智能化服務(wù)延伸。例如部分服務(wù)商開(kāi)始提供智能化調(diào)度、算法優(yōu)化等增值服務(wù),通過(guò)算法預(yù)測(cè)算力需求、優(yōu)化異構(gòu)資源調(diào)度效率,填補(bǔ)市場(chǎng)空白,滿足AI訓(xùn)練等高階需求。未來(lái)要實(shí)現(xiàn)更高效地調(diào)度算力,還需要解決算力資源的異構(gòu)性整合問(wèn)題,實(shí)現(xiàn)不同品牌和型號(hào)計(jì)算資源的統(tǒng)一調(diào)度,同時(shí)根據(jù)大模型訓(xùn)練任務(wù)的實(shí)時(shí)需求動(dòng)態(tài)調(diào)整算力資源。在跨地域算力資源協(xié)同方面,要實(shí)現(xiàn)不同區(qū)域間算力資源的靈活調(diào)配和高效利用。未來(lái),具備全棧服務(wù)能力的第三方服務(wù)商將成為行業(yè)主導(dǎo)力量。
趙鴻冰則認(rèn)為,算力服務(wù)的價(jià)值形態(tài)包括IaaS、PaaS、SaaS,大模型爆火后又出現(xiàn)了MaaS(模型即服務(wù)),算力服務(wù)中間商只有深耕這些價(jià)值,才能找到深入的場(chǎng)景和規(guī)模效益?!拔覀兏M岩呀?jīng)建成的中心納入到并行的算力網(wǎng)絡(luò)中,匹配客戶需求,讓這些中心發(fā)揮出產(chǎn)能和社會(huì)效益。”
“超算支撐了傳統(tǒng)科學(xué)的計(jì)算,智算支撐了數(shù)據(jù)科學(xué)的計(jì)算,支持大模型的預(yù)訓(xùn)練、后訓(xùn)練和推理,無(wú)論是超算還是智算,都由社會(huì)需求驅(qū)動(dòng)產(chǎn)生?!壁w鴻冰說(shuō),算力需求無(wú)止境,AI的落地一定會(huì)帶動(dòng)算力的利用率,關(guān)鍵在于滿足用戶需求。要按照市場(chǎng)化需求,依據(jù)不同業(yè)務(wù)類型,在不同區(qū)域構(gòu)建不同的資源和產(chǎn)品形態(tài),例如離線的訓(xùn)練業(yè)務(wù)可以使用西部綠色算力資源,實(shí)時(shí)性業(yè)務(wù)在東部運(yùn)行,相應(yīng)的電力成本也會(huì)偏高。“按照客戶真正的業(yè)務(wù)特征場(chǎng)景來(lái)設(shè)計(jì)、建設(shè)和運(yùn)營(yíng),其實(shí)利用率差距是不大的。”
在上述智算行業(yè)專家看來(lái),DeepSeek使算力資源得到中期調(diào)整和去泡沫,但真正滿足用戶需求的算力仍然不足。當(dāng)前推理算力需求持續(xù)增加,模型應(yīng)用的核心訴求是推理算力能夠更好地響應(yīng)用戶、降低成本和提高產(chǎn)出。同時(shí),基礎(chǔ)模型仍處于多模態(tài)、多模式擴(kuò)張階段,高性能算力依然不夠,軟硬件一體道路是未來(lái)唯一的選擇,就像DeepSeek以工程優(yōu)化將硬件性能發(fā)揮到極致,軟件能力將越來(lái)越重要。
無(wú)問(wèn)芯穹表示,DeepSeek引爆推理需求,未來(lái)推理芯片會(huì)急劇增多,推理算力需求或是預(yù)訓(xùn)練需求的百倍以上,預(yù)計(jì)訓(xùn)練和推理的算力配比將從8:2發(fā)展至2:8。國(guó)產(chǎn)芯片會(huì)迎來(lái)繁榮,應(yīng)抓住機(jī)遇打造全國(guó)產(chǎn)AI產(chǎn)業(yè)閉環(huán),實(shí)現(xiàn)更可控的自主算力發(fā)展。要面向國(guó)外芯片開(kāi)展極致的軟硬件協(xié)同優(yōu)化,以有限算力實(shí)現(xiàn)國(guó)產(chǎn)模型能力追趕,推動(dòng)國(guó)產(chǎn)芯片廠商開(kāi)放底層軟件生態(tài),依托國(guó)產(chǎn)和國(guó)外芯片搭建“異構(gòu)”AI系統(tǒng),解決算力缺口。
“我們對(duì)大自然的探索、生命的認(rèn)識(shí)還遠(yuǎn)遠(yuǎn)沒(méi)有到頭,科學(xué)研究對(duì)算力的需求是無(wú)止境的。更大的算力可以把模型擴(kuò)得更大,研究更精細(xì)?!崩罡鶉?guó)表示,算力需求不斷增長(zhǎng),但計(jì)算形態(tài)并未發(fā)生本質(zhì)變化,計(jì)算的基礎(chǔ)仍是以馮·諾依曼結(jié)構(gòu)為主的存算分立集成電路。未來(lái)如果實(shí)現(xiàn)存算一體,將改變現(xiàn)有計(jì)算模式,突破算力難題,提供更加高效的算力支持。