中國儲能網(wǎng)訊:智算中心的發(fā)展是應(yīng)對當(dāng)今世界日益增長的計算需求和信息爆炸的關(guān)鍵。它們?yōu)楦鞣N行業(yè)和科學(xué)研究等領(lǐng)域提供了必要的算力資源,以處理大量數(shù)據(jù),從而促進(jìn)科學(xué)發(fā)現(xiàn)和技術(shù)創(chuàng)新。在生物信息學(xué)、氣候研究、金融分析、材料科學(xué)和人工智能等領(lǐng)域,智算中心都發(fā)揮著至關(guān)重要的作用。
智算中心建設(shè)提質(zhì)加速
隨著人工智能技術(shù)的快速發(fā)展,作為智能時代所必需的新型基礎(chǔ)設(shè)施———智算中心“吹響”了加速建設(shè)的號角。
進(jìn)入2024年,就有武昌智算中心、中國移動智算中心(青島)、華南數(shù)谷智算中心、鄭州人工智能計算中心、博大數(shù)據(jù)深圳前海智算中心等相繼開工或投產(chǎn)使用。
據(jù)不完全統(tǒng)計,目前全國正在建設(shè)或提出建設(shè)智算中心的城市已經(jīng)超過30個,建設(shè)總數(shù)超過100個,投資規(guī)模超百億元。其中,建設(shè)主體包括政府機(jī)構(gòu)、三大電信運(yùn)營商以及部分互聯(lián)網(wǎng)企業(yè)。建設(shè)模式包括新建智算中心和已有數(shù)據(jù)中心改造升級,以及獨(dú)立投資建設(shè)、第三方出資建設(shè)和基于特殊項(xiàng)目公司的建設(shè)運(yùn)營等模式。
在IEEE會士、香港中文大學(xué)信息工程系教授邢國良看來,智算中心正成為未來計算基礎(chǔ)設(shè)施發(fā)展的重要方向。它融合了高性能計算、大數(shù)據(jù)、人工智能等多種技術(shù),能夠支撐復(fù)雜的智能應(yīng)用。隨著新興數(shù)字化技術(shù)的不斷進(jìn)步,對算力的需求呈現(xiàn)爆炸式增長。同時,邊緣計算、物聯(lián)網(wǎng)等新興領(lǐng)域的興起,也促使計算資源從中心走向邊緣。因此,智算中心將凸顯出分布式協(xié)同、軟硬件協(xié)同、云邊端協(xié)同等特點(diǎn)。
九章云極DataCanvas副總裁周曉凌表示,智算中心的發(fā)展和大模型發(fā)展需求緊密關(guān)聯(lián)。小模型和通用計算需求消費(fèi)不了這么高密度的算力,而隨著模型規(guī)模的不斷增大,智算中心會得到長期高速發(fā)展。不過,發(fā)展中也會受到國內(nèi)大模型數(shù)量收斂、行業(yè)垂類大模型需求躍進(jìn),以及關(guān)鍵AIGC應(yīng)用推廣等因素的影響而有所波動。
從定義的角度看,智算中心是采用領(lǐng)先的人工智能計算架構(gòu),提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施,并且通過算力的生產(chǎn)、聚合、調(diào)度和釋放,支撐數(shù)據(jù)開放共享、智能生態(tài)建設(shè)和產(chǎn)業(yè)創(chuàng)新聚集。
由此看出,智算中心需要采用包括通用算力和智能算力(GPU、NPU、FPGA、ASIC等)在內(nèi)的異構(gòu)計算架構(gòu),使其具備并行處理大規(guī)模、多模態(tài)數(shù)據(jù)的能力。這樣一來,它的對外賦能屬性更強(qiáng),不僅能提升企業(yè)效率,還能帶動產(chǎn)業(yè)提檔升級。
據(jù)國家信息中心發(fā)布的《智能計算中心創(chuàng)新發(fā)展指南》預(yù)測,“十四五”期間,在智算中心實(shí)現(xiàn)80%應(yīng)用水平的情況下,城市(地區(qū))對智算中心的投資,可帶動人工智能核心產(chǎn)業(yè)增長2.9至3.4倍。
與之相比,傳統(tǒng)數(shù)據(jù)中心則更像一個“守成者”。它的服務(wù)器和存儲設(shè)備通常采用更為標(biāo)準(zhǔn)化的配置,以滿足通用計算需求。因此,它所能帶來的產(chǎn)業(yè)附加值較低。
賽迪顧問人工智能與大數(shù)據(jù)研究中心常務(wù)副總經(jīng)理鄒德寶表示,智算中心允許客戶通過互聯(lián)網(wǎng)遠(yuǎn)程訪問和管理自己的數(shù)據(jù)和應(yīng)用,不受地理位置和時間的限制,并且提供專業(yè)的安全保障,如防火墻、加密、備份和恢復(fù)等。同時,還可以根據(jù)自己的業(yè)務(wù)需求和法律規(guī)定選擇合適的數(shù)據(jù)中心提供商和數(shù)據(jù)存儲位置,以及數(shù)據(jù)和計算需求靈活地調(diào)整資源的使用。
“未來幾年內(nèi),受政策推動、技術(shù)進(jìn)步、市場需求等因素的影響,智算中心的建設(shè)數(shù)量和投資規(guī)模有望實(shí)現(xiàn)顯著增長。一方面,國家已出臺多項(xiàng)智算中心相關(guān)政策,將進(jìn)一步加速智算中心建設(shè),另一方面,隨著數(shù)據(jù)智能、大模型和AI芯片等技術(shù)的快速發(fā)展,智算中心的計算需求將不斷增長。此外,各行各業(yè)對智算中心的需求也在不斷增加,尤其是在金融、醫(yī)療、教育、制造等領(lǐng)域,智算中心的應(yīng)用前景廣闊?!编u德寶說道。
避免陷入過度建設(shè)的“泥沼”
2023年10月,工業(yè)和信息化部等六部門印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》提出,到2025年在計算力方面,算力規(guī)模超過300EFLOPS、智能算力占比達(dá)到35%。
其中,算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展指標(biāo)顯示,2025年要建設(shè)50個智算中心。根據(jù)公開數(shù)據(jù)不完全統(tǒng)計,目前,全國“智算中心”建設(shè)及運(yùn)營項(xiàng)目已經(jīng)超過100個。
這些“智算中心”標(biāo)準(zhǔn)不一、規(guī)模不同,是否會重蹈當(dāng)初數(shù)據(jù)中心“產(chǎn)能過?!钡母厕H?
對此,中國科學(xué)院計算技術(shù)研究所研究員張?jiān)迫硎?,?dāng)前,已經(jīng)有近30個城市建設(shè)了智算中心,更多城市正在規(guī)劃上馬新智算中心,甚至出現(xiàn)了一個城市同時建設(shè)多個超算中心和智算中心的現(xiàn)象。由于需求不足,追求規(guī)模效應(yīng),運(yùn)營過程不透明和缺乏監(jiān)管,出現(xiàn)了智算中心空轉(zhuǎn)甚至停機(jī)的現(xiàn)象,無法充分發(fā)揮設(shè)備生命周期內(nèi)潛在效益,造成資源和資金浪費(fèi)。
為了解決這一問題,智算中心建設(shè)需要進(jìn)行精確的市場調(diào)研,確保算力供給與未來的技術(shù)需求、產(chǎn)業(yè)升級需要相匹配。
同時,政府部門應(yīng)通過政策引導(dǎo)避免同質(zhì)化競爭和無序擴(kuò)張。一方面,政府可以通過制定標(biāo)準(zhǔn)和引導(dǎo)資金,鼓勵智算中心向綠色、高效、專業(yè)化方向發(fā)展。另一方面,通過區(qū)域協(xié)調(diào)和規(guī)劃,實(shí)現(xiàn)智算中心的合理布局,避免資源在某一地區(qū)的過度集中。
此外,將傳統(tǒng)數(shù)據(jù)中心升級為智算中心也成為一種趨勢和選擇。傳統(tǒng)數(shù)據(jù)中心轉(zhuǎn)型為智算中心,不僅可以提高數(shù)據(jù)中心的運(yùn)行和管理效率,還能夠推動企業(yè)數(shù)字化轉(zhuǎn)型,實(shí)現(xiàn)數(shù)據(jù)的智能化應(yīng)用和價值挖掘。
不過,盡管傳統(tǒng)數(shù)據(jù)中心升級為智算中心具有諸多優(yōu)勢和益處,但同樣面臨多個問題和挑戰(zhàn)。
青云科技副總裁沈鷗表示,影響傳統(tǒng)數(shù)據(jù)中心升級為智算中心的因素很多。首先是相關(guān)硬件的增加,還有存儲、網(wǎng)絡(luò)等方面的優(yōu)化,利用平臺軟件來處理資源調(diào)度、智能運(yùn)維等問題,但一定要有更長遠(yuǎn)的計劃,比如后續(xù)的冷卻系統(tǒng)改造、可持續(xù)發(fā)展等。
鄒德寶表示,理論上,傳統(tǒng)數(shù)據(jù)中心可以通過升級硬件、軟件和引入新技術(shù)來實(shí)現(xiàn)向智算中心的轉(zhuǎn)變。但實(shí)際操作中,這一過程可能需要解決以下關(guān)鍵問題:一是技術(shù)兼容性與集成問題。傳統(tǒng)數(shù)據(jù)中心的舊有技術(shù)和系統(tǒng)可能不適用于智算中心的高效率和自動化要求。因此,需要將這些舊系統(tǒng)升級或與新技術(shù)集成,這可能會遇到兼容性問題,需要投入大量時間和資源;二是數(shù)據(jù)遷移與安全問題。將數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)中心遷移到智算中心時,需要確保數(shù)據(jù)的安全性和完整性。此外,數(shù)據(jù)遷移過程中有中斷、數(shù)據(jù)丟失或泄露風(fēng)險,需要謹(jǐn)慎處理;三是成本控制問題。升級可能涉及大量投資,包括新硬件的購買、軟件的升級或購置、培訓(xùn)員工使用新技術(shù)等。企業(yè)需要進(jìn)行成本效益分析,確保投資帶來的回報能夠符合預(yù)期。
“傳統(tǒng)數(shù)據(jù)中心要升級為智算中心,需要引入專用加速器,如GPU,支持大模型的處理器等,并協(xié)調(diào)好CPU和專用加速器的工作負(fù)載分配、互聯(lián)通信、網(wǎng)絡(luò)架構(gòu)升級等問題。同時,需要采用AI中間件和開發(fā)框架取代傳統(tǒng)架構(gòu),使應(yīng)用能夠從全新架構(gòu)中獲益。此外,還需要創(chuàng)新軟硬件技術(shù)降低升級成本,如液冷技術(shù)、分布式技術(shù)等?!毙蠂颊f道。
智算中心投產(chǎn)是一個復(fù)雜過程
智能計算中心涵蓋設(shè)施、硬件、軟件,并可提供從底層算力到頂層應(yīng)用使能的全棧能力。從這方面來看,建好一座智算中心,不僅需要滿足能源供給、綠色低碳、安全穩(wěn)定等一系列要求,還需為其提供穩(wěn)定的IT運(yùn)行環(huán)境,從而助力其實(shí)現(xiàn)算力資源的有效整合和調(diào)度。
國家信息中心發(fā)布的《智能計算中心規(guī)劃建設(shè)指南》提出,由于智能計算中心具有算力公共基礎(chǔ)設(shè)施的定位,其建設(shè)和運(yùn)營模式建議采用政府主導(dǎo)、企業(yè)承建、聯(lián)合運(yùn)營的政企合作建設(shè)運(yùn)營的框架:在建設(shè)層面,應(yīng)選擇政府主導(dǎo)下的政企合作模式,由企業(yè)具體承建智能計算中心,同時兼顧智能計算中心公共屬性、技術(shù)安全、投資規(guī)模巨大等特殊要求,承建企業(yè)應(yīng)為行業(yè)頭部企業(yè),在技術(shù)實(shí)力方面處于行業(yè)領(lǐng)先水平,技術(shù)應(yīng)用方面有能力做出前瞻性研判。
鄒德寶表示,為充分發(fā)揮智算中心的作用,應(yīng)該在高性能架構(gòu)配置、高可靠系統(tǒng)、高安全防護(hù)體系以及高節(jié)能設(shè)備和技術(shù)等方面下足功夫。一方面,智算中心需要采用先進(jìn)的硬件設(shè)備、高效的計算架構(gòu)及網(wǎng)絡(luò)架構(gòu),以確保數(shù)據(jù)傳輸?shù)母咝院头€(wěn)定性。此外,存儲系統(tǒng)也需要具備高性能和可擴(kuò)展性,以滿足不斷增長的數(shù)據(jù)存儲需求。另一方面,應(yīng)該采用高可靠性的硬件設(shè)備和冗余設(shè)計,并建立完善的監(jiān)控和故障處理機(jī)制,及時發(fā)現(xiàn)和解決潛在問題。同時,還需要建立完善的安全防護(hù)體系,包括網(wǎng)絡(luò)安全、系統(tǒng)安全、數(shù)據(jù)安全等,并采用高效的硬件設(shè)備和節(jié)能技術(shù),如低功耗芯片、液冷技術(shù)等,降低設(shè)備的能耗。
在周曉凌看來,首先,智算中心需要有較強(qiáng)的運(yùn)維能力,不僅要面向機(jī)房和硬件的運(yùn)維,而且要面向人工智能應(yīng)用和大模型訓(xùn)練的運(yùn)維和監(jiān)控。其次,智算中心不能僅提供硬件基礎(chǔ)設(shè)施產(chǎn)品服務(wù),還需要能提供硬件之上的智算軟件服務(wù),包括大規(guī)模集群、單個AI容器,以及AI訓(xùn)練微調(diào)產(chǎn)品、模型服務(wù)產(chǎn)品等。最后,智算中心也要能夠提供算力互聯(lián)能力,接入算力網(wǎng)絡(luò)。
沈鷗表示,在智算中心建設(shè)中,計算、存儲、網(wǎng)絡(luò)等方面的高性能硬件配置,多層次的災(zāi)備方案,高可用的架構(gòu)設(shè)計,清晰明確的權(quán)限管理,優(yōu)化制冷技術(shù),智能化的管理與運(yùn)維,多維度安全方案的設(shè)計……都是需要考慮的。如果把這個范圍再擴(kuò)大,智算中心的選址、后續(xù)擴(kuò)容規(guī)劃、能源供應(yīng)的穩(wěn)定性等也都應(yīng)該納入考慮范疇。
企商在線CTO樓煒表示,智算中心是傳統(tǒng)數(shù)據(jù)中心的升級,可以統(tǒng)一提供通用算力、超算和智算能力。為了充分發(fā)揮高性能計算的能力,需要從底層向上層構(gòu)建從算力到智慧應(yīng)用的全棧一體化架構(gòu)。首先,智算中心風(fēng)火水電的保障相對于傳統(tǒng)數(shù)據(jù)中心有增強(qiáng)性要求,尤其要重點(diǎn)考慮電力和網(wǎng)絡(luò)帶寬的保障;其次,在算力基礎(chǔ)設(shè)施層面,需要采購GPU服務(wù)器并使用軟件調(diào)度平臺優(yōu)化GPU利用率;再次,構(gòu)建大模型或AI算法平臺實(shí)現(xiàn)對數(shù)據(jù)的訓(xùn)練、推理和微調(diào);最后,在應(yīng)用層面需要結(jié)合業(yè)務(wù)實(shí)際需求構(gòu)建千行百業(yè)的智能應(yīng)用場景。
“高性能智算設(shè)備功率密度越來越高,對數(shù)據(jù)中心供電和制冷都提出了更大的挑戰(zhàn)。為保障智算中心高性能、高可靠性、高安全性,基礎(chǔ)設(shè)施需要采用全新的架構(gòu)設(shè)計,根據(jù)智算中心的特定需求進(jìn)行針對性的改造交付。被列入北京市2024年重點(diǎn)工程新基建項(xiàng)目的企商在線石景山智算中心正是根據(jù)智算中心的需求,提供了8~24kW的高功率機(jī)柜,同時提供液冷方式來支持更高密度的智算設(shè)備部署?!睒菬樈忉尩?。
由此來看,建好一座智算中心不僅需要選址、設(shè)計、建設(shè)、交付都采用全新的流程,液冷制冷系統(tǒng)、模塊化供電系統(tǒng)、智能化運(yùn)維系統(tǒng)等,也需要成為智算中心的標(biāo)配。
打造智算平臺 實(shí)現(xiàn)協(xié)同運(yùn)營管理
眾所周知,智算中心需要一個龐大的運(yùn)營體系予以支撐。因?yàn)樗粌H需要政策和標(biāo)準(zhǔn)制定機(jī)構(gòu)、硬件設(shè)備供應(yīng)商、軟件和技術(shù)服務(wù)提供商、數(shù)據(jù)服務(wù)提供商、應(yīng)用開發(fā)商、金融服務(wù)與投資機(jī)構(gòu)等多方參與,還涉及服務(wù)器機(jī)架、冷卻系統(tǒng)、電力能源供應(yīng)、網(wǎng)絡(luò)連接、安全及存儲系統(tǒng)等多方面的管理。此外,還需要支撐自動駕駛與智能交通系統(tǒng)、醫(yī)療健康、金融服務(wù)、智能制造、智慧城市、科研與教育、娛樂與新媒體等諸多應(yīng)用場景。
在這一過程中,如何實(shí)現(xiàn)軟硬件架構(gòu)在設(shè)計上的深度優(yōu)化和高度協(xié)同調(diào)度,以及大規(guī)模數(shù)據(jù)的高速傳輸、高效存儲和實(shí)時分析處理?如何快速建立起一套高效率、低成本、數(shù)字化、自服務(wù)化的運(yùn)營服務(wù)體系?如何跨越各廠商間的技術(shù)壁壘,實(shí)現(xiàn)無縫銜接與互操作,打破技術(shù)孤島?
目前來看,智算中心的發(fā)展經(jīng)歷了從1.0階段的粗放擴(kuò)張到2.0階段的精細(xì)規(guī)劃。在2.0階段,智算中心的建設(shè)更加注重需求牽引和市場化、平臺化運(yùn)營。而構(gòu)建AI智算平臺,正在逐漸成為優(yōu)化智算中心調(diào)度管理的有效手段。
據(jù)了解,如今,行業(yè)內(nèi)正陸續(xù)推出智算平臺及解決方案。例如,青云科技AI智算平臺、聯(lián)想萬全異構(gòu)智算平臺、九章云極DataCanvas智算操作系統(tǒng)、新華三全棧智算解決方案等。
鄒德寶表示,智算平臺的推出和智算中心的建設(shè)運(yùn)營是相輔相成的。這些平臺及解決方案的陸續(xù)發(fā)布,對智算中心的建設(shè)運(yùn)營將帶來多方面的助力:一是技術(shù)創(chuàng)新和效率提升。智算平臺通常集成了最新的AI技術(shù),包括深度學(xué)習(xí)、自然語言處理、機(jī)器視覺等,這將為智算中心提供強(qiáng)大的技術(shù)支持,推動其在算法、數(shù)據(jù)處理、模型訓(xùn)練等方面實(shí)現(xiàn)技術(shù)創(chuàng)新和效率提升。二是資源整合和優(yōu)化。智算平臺可以實(shí)現(xiàn)對計算資源、存儲資源、數(shù)據(jù)資源等的統(tǒng)一管理和調(diào)度,從而提高資源的利用率,降低運(yùn)營成本。三是服務(wù)模式的創(chuàng)新。智算平臺可以提供靈活的服務(wù)模式,如云服務(wù)、按需服務(wù)等,這不僅可以滿足用戶多樣化的需求,也可以為智算中心帶來更多的商業(yè)機(jī)會。
“算力運(yùn)營意味著以服務(wù)化的方式在線售賣算力,構(gòu)建算力服務(wù)運(yùn)營平臺是一套復(fù)雜的系統(tǒng)設(shè)計。對此,企商在線認(rèn)為,第一,明確算力運(yùn)營平臺的商業(yè)模式,除了出售自有算力外,還可以納入第三方算力和公有云服務(wù)作為擴(kuò)展;第二,需要算力資源管理、算力一體化網(wǎng)絡(luò)架構(gòu)和異構(gòu)算力調(diào)度平臺支撐。第三,需要構(gòu)建一整套管理運(yùn)維平臺,確保算力的穩(wěn)定性和安全性;第四,除售賣算力之外,還可以售賣大模型解決方案和軟件平臺,提供咨詢服務(wù)。第五,完善配套商業(yè)模式,包括轉(zhuǎn)售分成模式、供應(yīng)商管理、產(chǎn)品管理、服務(wù)管理等配套管理功能設(shè)計?!睒菬樔缡钦f。
在周曉凌看來,構(gòu)建智算平臺及解決方案,主要是提升智算中心的產(chǎn)品服務(wù)的交付能力和多樣性,這樣客戶不僅可以快速找到更匹配的產(chǎn)品,使用效率也會更高。九章云極DataCanvas發(fā)布的DATACANVASAIDCOS智算操作系統(tǒng)在智算中心產(chǎn)業(yè)生態(tài)中處于中間位置,能夠向下協(xié)同大規(guī)模GPU算力,確保硬件資源得到有效利用和高效管理;同時向上提供完整的大模型工具鏈,為大模型訓(xùn)練和推理以及大模型應(yīng)用提供便捷、高效的開發(fā)環(huán)境,滿足復(fù)雜AI任務(wù)的需求。
沈鷗表示,青云科技AI智算平臺是一個成熟的,并且經(jīng)過實(shí)踐檢驗(yàn)的平臺產(chǎn)品,能夠在資源優(yōu)化與成本節(jié)約、智能化運(yùn)維與綠色環(huán)保、精細(xì)化運(yùn)營與財務(wù)管理等方面滿足客戶需求。同時,為了更好地支持智算中心的建設(shè)與運(yùn)營,青云科技也在積極和產(chǎn)業(yè)鏈上的企業(yè)展開合作,通過軟硬件的兼容優(yōu)化與聯(lián)合創(chuàng)新,甚至打造多方的聯(lián)合解決方案,為智算中心的整體建設(shè)與運(yùn)營提供更多、更好、更適合的選擇?!拔覀冋J(rèn)為,智算中心應(yīng)該明確自身的目標(biāo),選擇運(yùn)營架構(gòu)與模式時,充分考慮技術(shù)挑戰(zhàn)、市場需求變化,以及商業(yè)價值與社會價值實(shí)現(xiàn)等因素?!鄙蝥t解釋道。