中國儲能網(wǎng)訊:隨著人工智能大模型的迅猛發(fā)展,GPU算力集群的能源消耗正成為行業(yè)關(guān)注的熱點。本文對2030年之前的全球及我國GPU算力集群的電力需求增長趨勢做了測算,分析了其潛在影響,并探討了部分應(yīng)對策略。
本文認(rèn)為,GPU算力集群目前占全球整體電力消耗約為千分之一,短期內(nèi)不會造成全球性電力供應(yīng)短缺,但是由于新建GPU算力集群主要集中在美國,會對其局部電力供給和傳輸帶來相對嚴(yán)峻的挑戰(zhàn)。與此同時,中國的GPU算力增長短期內(nèi)不會導(dǎo)致電力短缺。不過,預(yù)計2030年,GPU算力集群可能占全國電力消耗的2.7%,接近重點用能行業(yè)的規(guī)模,因此需要統(tǒng)籌規(guī)劃和管理其用電政策,需要重點關(guān)注區(qū)域性電力缺口和跨區(qū)域新能源消納的問題。本文提出,可以從提升AI算力的計算效率、推動GPU算力的合理布局和優(yōu)化綠電交易政策、加強(qiáng)新型電力系統(tǒng)建設(shè)三方面著手,來應(yīng)對AI大模型帶來的能源挑戰(zhàn)。
GPU算力的快速增長引發(fā)人們對電力短缺的擔(dān)憂。AI大模型對算力的需求激增,使得行業(yè)面對“算不出”和“算不起”的雙重挑戰(zhàn):一方面,傳統(tǒng)CPU架構(gòu)難以勝任大模型的訓(xùn)練和推理任務(wù),以GPU(圖形處理單元)為核心的算力集群建設(shè)正在快速增長;另一方面,大模型規(guī)??焖僭龃髮τ?xùn)練資源的更高要求,以及出于降低單位推理成本的考慮,單體GPU算力集群的規(guī)模也在快速提升。電力供給正在成為新建GPU算力集群的制約因素之一。根據(jù)國際能源署IEA《電力2024》的報告,一次谷歌搜索需要0.3瓦時的電力,而一次ChatGPT請求則需要2.9瓦時的電力,如果利用ChatGPT處理每天90億次的搜索,預(yù)計每年電力消耗將增加10太瓦時(1TWh=10億度電)。
在此背景下,阿里研究院與阿里云采購部碳管理與能源采購團(tuán)隊進(jìn)行了初步測算和分析,本文評估了全球和國內(nèi)GPU算力集群的電力需求和比重,并探討了應(yīng)對AI大模型電力挑戰(zhàn)的部分應(yīng)對策略。需要說明的是,本文的測算對象特指服務(wù)于AI大模型訓(xùn)練和推理的GPU算力集群,不包含以CPU為主的傳統(tǒng)數(shù)據(jù)中心。
一、AI大模型的用電需求大幅增長,能源問題引發(fā)行業(yè)關(guān)注
GPU算力需求的激增給電網(wǎng)和供電帶來了新的壓力。隨著AI大模型的興起,GPU算力集群正日益成為新建IDC的主流。然而,GPU服務(wù)器的功率通常是CPU服務(wù)器的數(shù)倍,這意味著GPU服務(wù)器的高功率將顯著增加數(shù)據(jù)中心的散熱系統(tǒng)能耗和總體能耗。在大模型訓(xùn)練階段,需要將超過萬卡以上的GPU部署在同一地點,以實現(xiàn)芯片間和服務(wù)器之間的高速網(wǎng)絡(luò)連接,這導(dǎo)致超大規(guī)模的GPU算力集群在擴(kuò)建時受到電力供應(yīng)的限制。3月底,一條社交媒體的消息在國內(nèi)AI圈快速傳播,凸顯了GPU算力集群建設(shè)受限于電力供給并會對電網(wǎng)穩(wěn)定性帶來的影響。根據(jù)微軟工程師的爆料,為了訓(xùn)練GPT-6,微軟在試圖搭建擁有10萬塊英偉達(dá)H100 GPU的訓(xùn)練集群,但是如果在同一個州部署這樣規(guī)模的集群,可能會導(dǎo)致電網(wǎng)崩潰,因此不得不跨區(qū)域部署。
隨著AI大模型從訓(xùn)練階段步入推理階段,其推理算力需求會顯著高于訓(xùn)練算力。AI大模型的電力需求將進(jìn)一步增加,對不同區(qū)域的總體電力供應(yīng)將帶來挑戰(zhàn)。荷蘭國家銀行的數(shù)據(jù)專家Alex de Vries估計,類似ChatGPT這樣的AI系統(tǒng),每天處理約2億個用戶請求所消耗的電力,相當(dāng)于1.7萬個美國家庭的日常用電量。據(jù)第三方推測,文生視頻應(yīng)用Sora的訓(xùn)練算力需求大概是GPT-4的1/4左右,而其推理算力需求是GPT-4的1000倍以上,更多的算力需求將帶來更嚴(yán)峻的電力挑戰(zhàn)。上述現(xiàn)象凸顯了在AI技術(shù)快速發(fā)展的同時,亟需關(guān)注和優(yōu)化數(shù)據(jù)中心的能源問題。
美國人工智能企業(yè)家不斷表達(dá)對“缺電”的焦慮,引發(fā)國內(nèi)的關(guān)注升溫。特斯拉CEO馬斯克在博世互聯(lián)世界2024大會上預(yù)言,“接下來陷入短缺的將是電力,到明年(2025年),我們就沒有足夠的電力來運行所有的芯片了” 。據(jù)報道,英偉達(dá)創(chuàng)始人黃仁勛在斯坦福大學(xué)演講中表示:“AI的盡頭是光伏和儲能!我們不能只想著算力,如果只考慮計算機(jī),我們需要燒掉14個地球的能源。超級AI將成為電力需求的無底洞” 。在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇年會上,OpenAI的創(chuàng)始人奧特曼警告說,下一波生成型人工智能系統(tǒng)消耗的電力將遠(yuǎn)遠(yuǎn)超出預(yù)期,能源系統(tǒng)將難以應(yīng)對,未來AI的技術(shù)取決于能源,我們需要更多的光伏和儲能。
不同研究報告對AI能源消耗的預(yù)測結(jié)果也各不相同,進(jìn)一步加劇行業(yè)對GPU算力集群能耗的疑問。國際能源署IEA最近的《電力2024》報告中預(yù)計到2026年,AI數(shù)據(jù)中心的電力需求將達(dá)到90TWh(1TWh=10億度電)。SemiAnalysis預(yù)測,2024年初Al數(shù)據(jù)中心的功率將超過10GW,2026年底將達(dá)到40GW。Alex de Vries預(yù)測到2027年,全球新制造的服務(wù)器與人工智能相關(guān)的能耗可能會增加到85TWh至134TWh的電力。
我國GPU算力集群建設(shè)加速,能源優(yōu)化成為關(guān)鍵問題。國內(nèi)AI產(chǎn)業(yè)界的蓬勃發(fā)展推動AI算力的需求快速增長,各大領(lǐng)先公司正在投入巨資打造超過萬卡級別的AI算力集群。2024年2月,國務(wù)院國資委舉辦了人工智能專題推進(jìn)會議,明確提出了加快智能算力中心建設(shè)的戰(zhàn)略目標(biāo)。幾乎同時,北京和上海等一線城市已投入巨額資金,打造先進(jìn)的人工智能公共算力平臺,以支持本地及周邊地區(qū)的AI產(chǎn)業(yè)研究和商業(yè)應(yīng)用。其他城市也在積極規(guī)劃和籌建各自的AI算力平臺,以期在未來的AI技術(shù)競爭中占據(jù)有利位置。如何提升新建GPU算力能效并滿足其電力需求,特別是在國家雙碳戰(zhàn)略的背景下優(yōu)化GPU算力集群的能源結(jié)構(gòu),更多消納綠色能源,成為一項復(fù)雜而緊迫的任務(wù)。
二、GPU算力集群不會造成全球電力供應(yīng)短缺,但是美國局部電力供給和傳輸挑戰(zhàn)相對嚴(yán)峻
我們的測算方法結(jié)合了GPU算力集群的能耗數(shù)據(jù)、不同型號GPU芯片的出貨量、知名研究機(jī)構(gòu)對市場增速的預(yù)測,以及來自國際能源署、國家能源局等機(jī)構(gòu)對用電總量的預(yù)測,來推算GPU算力集群逐年的用能需求和比重。
短期測算顯示,截至2023年底,GPU算力集群占全球整體電力消耗約為千分之一,在接下來的1-2年內(nèi),GPU算力集群不會造成整體的電力供應(yīng)短缺。
截至2023年底,全球GPU算力集群全年的電力消耗約為 29 TWh(1TWh=10億度電),占全球電力消耗的0.1%。
預(yù)計至2024年底,全球GPU算力集群全年的電力消耗約為 85 TWh,占全球電力消耗的0.3%,占比約為2023年的3倍。
長期測算來看,至2030年,全球GPU算力集群的電力需求會有幾十倍的增長,以較快增長的假設(shè)計算,GPU算力集群耗電占全球比例將達(dá)到3.2%,成為一個重點關(guān)注的新興用能行業(yè)。
預(yù)計至2026年底,全球GPU算力集群全年的電力消耗約為 316 TWh,GPU算力集群全年的電力消耗占全球電力消耗的1.1%。
預(yù)計至2030年底,全球GPU算力集群全年的電力消耗約為1058 TWh,GPU算力集群全年的電力消耗占全球電力消耗的3.2%。
根據(jù)上述測算,2024年至2030年,全球GPU算力集群年度總耗電量將增長約11倍,年復(fù)合增長率為52.2 %。
新建GPU算力集群主要集中在美國,會對局部電力供給和傳輸帶來顯著挑戰(zhàn)。
從需求側(cè)來看,新建GPU算力集群主要集中在美國本土。據(jù)第三方數(shù)據(jù)測算,英偉達(dá)獨占全球90%的AI芯片市場。受美國商務(wù)部對中國高端芯片禁運政策的影響,美國公司已經(jīng)成為英偉達(dá)芯片的最主要客戶,再加上美國算力中心的平均電價在主要經(jīng)濟(jì)體中很低(平均約為0.083美元/度),新建的GPU算力集群在美國本土進(jìn)一步集中,因此美國的GPU算力集群的單體規(guī)模和總體電力消耗的增長速度都遙遙領(lǐng)先于全球水平。據(jù)SemiAnalysis預(yù)測,人工智能熱潮將會推動美國全部數(shù)據(jù)中心電力(GPU算力集群只是其中一部分)需求從2023年的23 GW 增長到2026年的52 GW, 占美國總發(fā)電量的比例從2023年的4.5%增加至2026年的10%。
從供給側(cè)來看,美國的電力系統(tǒng)相對脆弱。美國電力基礎(chǔ)設(shè)施更陳舊,大面積停電的情況時有發(fā)生,且輸電能力增長緩慢。以單體部署10萬塊英偉達(dá)H100 的GPU算力集群為例,其功耗超過13萬千瓦(1GW=100萬千瓦),約等于10萬個美國家庭的用電量,將為區(qū)域電網(wǎng)的穩(wěn)定性帶來巨大的挑戰(zhàn)。據(jù)外媒報道,美國能源部,微軟和亞馬遜正在考慮建設(shè)核聚變和核裂變發(fā)電廠來滿足GPU算力集群快速擴(kuò)張的需要,亞馬遜以6.5億美元買下了緊鄰核電站的一處數(shù)據(jù)中心園區(qū)。
因此對美國而言,一方面是急劇增長的AI大模型用電需求,一方面是陳舊且脆弱的電力網(wǎng)絡(luò),美國AI產(chǎn)業(yè)界的眾多大佬對電力供應(yīng)的擔(dān)憂是可以理解的。與之相比,我國的電網(wǎng)不僅采用了超高壓輸電等先進(jìn)技術(shù),而且相較于化工、金屬冶煉和礦物制品等高能耗產(chǎn)業(yè),為超過10萬千瓦的GPU算力集群供電并不是一個重大挑戰(zhàn),因此對電網(wǎng)整體造成的壓力并不像美國那樣顯著。
三、我國GPU算力集群用電需求將增長迅速,短期內(nèi)不會導(dǎo)致電力短缺,但需提前統(tǒng)籌規(guī)劃用電政策保障可持續(xù)發(fā)展
短期測算顯示,我國GPU算力集群的電力消耗占比相對較小,短期內(nèi)不會引發(fā)電力短缺。未來2-3年內(nèi),我國GPU算力集群的電力需求進(jìn)入快速增長期,預(yù)計2024年GPU算力集群的電力消耗將是2023年的3倍。由于目前GPU算力集群占全國電力總消耗的比重僅為千分之一,因此短期內(nèi)并不會對我國電力供應(yīng)總量帶來沖擊,不會引起整體性電力短缺。
截至2023年底,我們測算國內(nèi)GPU算力集群全年電力消耗約為8.7 TWh(1TWh=10億度電),占全國電力消耗的0.1%。
預(yù)計至2024年底,我國GPU算力集群全年電力消耗將增長至27.1 TWh度電,占全國電力消耗的0.28%。
長期測算來看,GPU算力集群接近重點用能行業(yè)的規(guī)模,需要提前進(jìn)行用電政策的統(tǒng)籌規(guī)劃和管理。預(yù)計至2030年,GPU算力集群的電力消耗將會逼近重點用能行業(yè)的規(guī)模。GPU算力集群的電力消耗距離高載能行業(yè)還有差距。據(jù)國家能源局?jǐn)?shù)據(jù), 2023年全年,占全社會用電量比例高于4%的行業(yè)依次有化工、黑色金屬冶煉、有色金屬冶煉、非金屬礦物制品、電力熱力等行業(yè),其中前四大高載能行業(yè)占比約為26.3%。按照上述預(yù)計,2030年GPU算力集群的電力消耗雖低于2023年四大高載能行業(yè)占比,但也已經(jīng)到了需要引起重視的規(guī)模,需要提前進(jìn)行用電政策的統(tǒng)籌規(guī)劃和管理。
以偏較快增速的假設(shè)測算,預(yù)計至2026年底,我國GPU算力集群全年的電力消耗約為96.2 TWh,GPU算力集群全年的電力消耗占全國電力消耗的0.99%。
預(yù)計至2030年底,我國GPU算力集群全年的電力消耗約為306.3 TWh,GPU算力集群全年的電力消耗占全國電力消耗的2.71 %。
根據(jù)上述測算,2024年至2030年,我國GPU算力集群年度總耗電量將增長約10倍,年復(fù)合增長率為49.8%。
從總體供需關(guān)系看,新增的GPU算力集群功耗遠(yuǎn)低于我國新能源裝機(jī)容量的增長。比對用電端和發(fā)電端的總體數(shù)據(jù)來看,持續(xù)擴(kuò)大的新能源發(fā)電規(guī)模,結(jié)合正在推進(jìn)中的新型電力系統(tǒng)建設(shè),總體上能夠滿足高速增長的GPU算力集群用電需要。據(jù)國家能源局?jǐn)?shù)據(jù),2023年,全國發(fā)電裝機(jī)容量約為2900GW,其中除火電外的清潔能源裝機(jī)容量約為1500GW,占比為52.3%。其中風(fēng)電和光伏近年來增長速度持續(xù)維持高位,2023年分別同比增長20.7%和55.2%。按照前述預(yù)測,2030年全國GPU算力集群功耗約為35GW,新能源新增裝機(jī)規(guī)模將遠(yuǎn)超過GPU算力集群的功耗需求。
當(dāng)前面臨的突出問題是如何解決GPU算力集群的區(qū)域性電力缺口,以及如何提高跨區(qū)域的新能源消納能力。雖然總體供需上不會引起電力短缺,但是考慮到GPU算力集群具有單地點、全時段、大功率的用電特點,亟需建設(shè)的超大型GPU算力集群的選址可能因為區(qū)域性的能耗指標(biāo)分配、電網(wǎng)網(wǎng)架結(jié)構(gòu)、雙碳政策等因素受到限制,因此需要為GPU算力集群的能耗指標(biāo)、能源結(jié)構(gòu)和用電政策等做統(tǒng)籌規(guī)劃。此外,對于GPU算力集群密集分布的部分區(qū)域,用電需求的快速增長有可能會對局部電力供給和輸配電設(shè)施建設(shè)造成短期壓力,如何提升跨區(qū)域的風(fēng)光電等新能源消納比例是亟待解決的問題。
四、應(yīng)對AI大模型電力挑戰(zhàn)的思考
應(yīng)對AI大模型帶來的能源挑戰(zhàn),可以從提升AI算力的能效、產(chǎn)業(yè)政策、智能電網(wǎng)和優(yōu)化GPU算力集群能耗和能源結(jié)構(gòu)等方面綜合考慮。本文主要圍繞前三個方面探討應(yīng)對策略。
應(yīng)對策略一:整體優(yōu)化計算架構(gòu)和計算服務(wù)的提供方式,提升AI算力的計算效率。
提升AI算力的計算效率是應(yīng)對未來電力需求增長的關(guān)鍵策略,可以從AI芯片、服務(wù)器和服務(wù)提供方式三個層面,來引導(dǎo)和激勵相關(guān)產(chǎn)業(yè)研發(fā)和應(yīng)用計算效率更優(yōu)的技術(shù)和產(chǎn)品。
提升AI芯片的計算效率。目前行業(yè)通行的做法包括制程技術(shù)提升、架構(gòu)創(chuàng)新、低功耗設(shè)計、軟硬件協(xié)同等,涵蓋了從工藝、架構(gòu)、電路設(shè)計、系統(tǒng)層級優(yōu)化等多個方面,此領(lǐng)域的創(chuàng)新正在不斷演進(jìn)。英偉達(dá)最新發(fā)布的GB200 GPU與上一代的H100 GPU相比,每瓦數(shù)的TFLOPS(每秒浮點運算次數(shù))提高了47%。此外,業(yè)界正在探索設(shè)計大模型專用芯片等方式提升計算效率,例如美國初創(chuàng)科技企業(yè)Groq開發(fā)了專門面向大模型推理場景優(yōu)化設(shè)計的LPU芯片。
降低服務(wù)器能耗??伸`活配置、高密度、高兼容性的服務(wù)器架構(gòu)設(shè)計也能夠有效降低服務(wù)器能耗。例如基于方升架構(gòu)的阿里云磐久服務(wù)器G系列,與傳統(tǒng)架構(gòu)相比,系統(tǒng)散熱能力提升10%,散熱能耗降低30%以上。越來越高的芯片和服務(wù)器密度也促使業(yè)界開始采用直接芯片(Direct-to-Chip)冷卻等液冷技術(shù),如英偉達(dá)最新發(fā)布的GB200 NVL72機(jī)柜可容納72 個Blackwell GPU,并采用一體水冷散熱方案,從而大幅降低能耗。
提高資源利用效率。依托公共云來提供AI算力服務(wù)能夠有效提升資源利用率,降低運營成本特別是用電成本。公共云通過資源分配和任務(wù)調(diào)度技術(shù),可以提升GPU的負(fù)載利用率,從而降低單位算力的能耗成本,是提高GPU計算效率的最高效、最便捷的方式之一。
應(yīng)對策略二:優(yōu)先支持在八大樞紐數(shù)據(jù)中心集群建設(shè)GPU算力集群,探索跨區(qū)跨省的綠電和綠證交易,集中滿足綠電需求。
根據(jù)發(fā)改數(shù)據(jù)〔2023〕1779號文的要求,到2025年,在八大數(shù)據(jù)中心國家樞紐節(jié)點中,新建數(shù)據(jù)中心的綠電使用比例需超過80%。建議考慮在新能源資源豐富的國家級算力樞紐節(jié)點出臺鼓勵措施,優(yōu)先布局GPU算力集群,對于推動GPU算力的合理布局、優(yōu)化供需和綠電集約發(fā)展等都具有重大意義。由于八大樞紐的新能源資源分布不均衡,對于樞紐集群內(nèi)GPU算力在優(yōu)先消納本地新能源后的不足部分,建議探索通過跨區(qū)跨省的綠電、綠證交易來滿足需求。
應(yīng)對策略三:加強(qiáng)新型電力系統(tǒng)建設(shè),增強(qiáng)電網(wǎng)敏捷調(diào)度能力。
大量新能源的接入對于電力系統(tǒng)穩(wěn)定性的挑戰(zhàn)已是確定性問題,而GPU算力作為一個快速增長且穩(wěn)定的用電負(fù)荷,需要持續(xù)運行且不易調(diào)節(jié),很難參與傳統(tǒng)用電的需求響應(yīng)。因此,加強(qiáng)新型電力系統(tǒng)建設(shè)顯得尤為重要,通過智能化技術(shù)提升新能源發(fā)電量與工商業(yè)用電的源荷匹配度,增強(qiáng)電網(wǎng)的敏捷調(diào)度能力,既能保障對GPU算力集群的穩(wěn)定供電,又能盡量增加新能源電量的本地消納。
結(jié)語
隨著AI大模型時代的到來,GPU算力需求激增,不僅推動了云計算和能源管理技術(shù)的革新,也引發(fā)了對電力供應(yīng)穩(wěn)定性的廣泛關(guān)注。盡管短期內(nèi)GPU算力集群的電力消耗在全球范圍內(nèi)占比仍小,但預(yù)計至2030年其能耗將顯著增長,成為重點關(guān)注的用能領(lǐng)域,尤其是美國面臨局部電力供給和傳輸帶來嚴(yán)峻挑戰(zhàn)。
隨著中國GPU算力集群建設(shè)的加速,短期內(nèi)電力需求雖快速增長但整體可控;長期來看,則需要前瞻性的規(guī)劃來應(yīng)對局部用電缺口和綠電消納的挑戰(zhàn)。利用技術(shù)手段提升AI算力能效是應(yīng)對電力挑戰(zhàn)的關(guān)鍵策略,此外,合理布局GPU算力集群與綠電供應(yīng),加強(qiáng)新型電力系統(tǒng)建設(shè),提升電網(wǎng)調(diào)度能力,對于確保AI技術(shù)的可持續(xù)發(fā)展至關(guān)重要。
總之,GPU算力集群的快速發(fā)展對全球能源體系提出新要求,需要技術(shù)創(chuàng)新、政策引導(dǎo)與行業(yè)協(xié)作,以實現(xiàn)AI算力的高效、綠色、可持續(xù)增長。希望通過本文拋磚引玉,促進(jìn)更多業(yè)內(nèi)專家投入對這一議題的深入討論和持續(xù)研究,為行業(yè)內(nèi)外的決策者提供數(shù)據(jù)支持,共同探討如何解決可能的電力挑戰(zhàn)。