中國儲能網(wǎng)訊:以大模型為代表的人工智能技術(shù)不斷取得突破并獲得廣泛應(yīng)用,其背后的算力需求呈現(xiàn)井噴式的增長態(tài)勢。為了滿足大模型訓(xùn)練和推理的大規(guī)模、高性能算力需求,算力基礎(chǔ)設(shè)施的資源供給模式正在從單點資源池、單點應(yīng)用向云、邊、端多層次資源池及多級算力協(xié)同的方向發(fā)展。最終,算力節(jié)點將通過無所不在的網(wǎng)絡(luò)連接有機融合,實現(xiàn)計算、網(wǎng)絡(luò)、存儲等多維資源的一體化柔性供給。
為了實現(xiàn)這一目標,算力網(wǎng)絡(luò)的概念應(yīng)運而生。依照國際電信聯(lián)盟(ITU)的定義,算力網(wǎng)絡(luò)是一種通過網(wǎng)絡(luò)控制面分發(fā)服務(wù)節(jié)點的算力、存儲、算法等資源信息,結(jié)合網(wǎng)絡(luò)信息,以用戶需求為核心,提供最佳的計算、存儲、網(wǎng)絡(luò)等資源的分發(fā)、關(guān)聯(lián)、交易與調(diào)配,從而實現(xiàn)整網(wǎng)資源的最優(yōu)化配置和使用的新型網(wǎng)絡(luò)技術(shù)。它通過對全網(wǎng)資源的高效整合和優(yōu)化分配,為計算任務(wù)提供強大的算力支持。
算力網(wǎng)絡(luò)將成重要基礎(chǔ)設(shè)施,
算力調(diào)度是核心能力
和電力網(wǎng)絡(luò)一樣,算力網(wǎng)絡(luò)也將成為重要的基礎(chǔ)設(shè)施,為經(jīng)濟發(fā)展和社會進步提供基礎(chǔ)資源。一方面,把資源高效分配給需求方,提高資源利用效率;另一方面,支持用戶按需獲取資源,而無需關(guān)心資源的具體來源。
與電力網(wǎng)絡(luò)相比,算力網(wǎng)絡(luò)的建設(shè)運行更具挑戰(zhàn)性。例如,在資源類型方面,電力網(wǎng)絡(luò)提供的是單一的電力資源服務(wù),算力網(wǎng)絡(luò)則更加多元,包括通用算力、超算算力、智能算力等;在資源調(diào)度方面,電力網(wǎng)絡(luò)相對標準化和統(tǒng)一化,目標是電力的供需平衡,算力網(wǎng)絡(luò)則需考慮計算任務(wù)的類型、數(shù)據(jù)流、指令流等更多因素;在業(yè)務(wù)場景方面,電力網(wǎng)絡(luò)被廣泛應(yīng)用但主要集中在能源的供應(yīng)和消費,算力網(wǎng)絡(luò)則涵蓋人工智能、大數(shù)據(jù)處理、自動駕駛、智能物聯(lián)網(wǎng)等領(lǐng)域,顯示出更加多樣化的特征。
算力網(wǎng)絡(luò)要想像電力網(wǎng)絡(luò)一樣高效、穩(wěn)定、便捷地提供資源服務(wù),需要重點打造以下技術(shù)能力。
一是算力度量,即針對不同類型、不同架構(gòu)的算力建立統(tǒng)一的評價體系與標識體系,賦能算力流通,類似電力網(wǎng)絡(luò)使用“千瓦時”作為量綱,這也是為算力的感知、管控、服務(wù)打造的必要基礎(chǔ)和標準。
二是算力感知,即在實現(xiàn)算力的統(tǒng)一度量與標識的基礎(chǔ)上,捕捉業(yè)務(wù)算力需求信息以及算力資源信息,從而為算力網(wǎng)絡(luò)調(diào)度編排提供依據(jù),實現(xiàn)資源配置的最優(yōu)化。
三是算力路由,即通過擴展傳統(tǒng)的網(wǎng)絡(luò)路由協(xié)議,實現(xiàn)對網(wǎng)絡(luò)、計算、存儲等多維度資源、服務(wù)的感知與通告,實現(xiàn)網(wǎng)絡(luò)和算力資源的聯(lián)合調(diào)度。
四是確定性承載,即為基礎(chǔ)網(wǎng)絡(luò)提供確定性能力,目標是改變傳統(tǒng)網(wǎng)絡(luò)的“盡力而為”轉(zhuǎn)發(fā)方式,實現(xiàn)帶寬可控、路徑可控、抖動可控,為算力路由、算力通告提供“準時、準確”的高可靠連接保障。
五是算力調(diào)度,即通過編排實現(xiàn)算力調(diào)度與業(yè)務(wù)運營的結(jié)合,根據(jù)不同的業(yè)務(wù)場景對多樣化的算力資源自動進行需求匹配和調(diào)度。
在上述技術(shù)體系中,算力調(diào)度作為連接用戶業(yè)務(wù)需求和算力網(wǎng)絡(luò)資源的中樞,是構(gòu)成算力網(wǎng)絡(luò)服務(wù)的核心能力。算力調(diào)度涉及的場景和范圍非常廣泛,不僅要在多云、云網(wǎng)之間進行協(xié)同,還要在跨行業(yè)、跨地區(qū)、跨層級的復(fù)雜場景中進行調(diào)度。算力調(diào)度主要有三類方案,分別是基于控制器對接的集中管控方案、基于路由協(xié)議擴展的算力網(wǎng)關(guān)方案和基于DNS域名解析的算力互聯(lián)網(wǎng)方案。
中國電信天翼云的“息壤”平臺采用基于控制器對接的集中管控方案,打造與算力控制器和網(wǎng)絡(luò)控制器對接的一體化調(diào)度平臺,通過分布式的控制器獲取全局的算網(wǎng)信息,并根據(jù)業(yè)務(wù)需求進行全局算力調(diào)度,有效整合各方異構(gòu)算力資源,為全社會提供標準化算力。當(dāng)前,“息壤”正在從算力互聯(lián)調(diào)度平臺升級成為集算網(wǎng)調(diào)度、計算加速、模型訓(xùn)推于一體的智算服務(wù)平臺,有力地支持了大模型和人工智能產(chǎn)業(yè)的蓬勃發(fā)展。
云邊端多級算力協(xié)同,提升電力人工智能大模型推理效能
隨著規(guī)模定律(Scaling Law)持續(xù)生效,大模型所需的算力規(guī)??焖僭鲩L。為消除單點集群在節(jié)點數(shù)和資源量上的限制,分布式、異構(gòu)化的算力網(wǎng)絡(luò)承載著大模型的剛性需求,算力的按需調(diào)度更是發(fā)揮了重要作用。此前業(yè)界對于大模型算力的討論重點在于訓(xùn)練階段,然而隨著大模型與人們生產(chǎn)生活關(guān)系的日益緊密,推理階段的算力需求同樣不容忽視。大模型推理具有廣泛部署、持續(xù)運行等特點,直接關(guān)系到大模型應(yīng)用的準確性、實時性、擴展性和資源效率,是影響大模型用戶體驗和業(yè)務(wù)成效的關(guān)鍵。與訓(xùn)練階段相比,大模型推理可使用的異構(gòu)算力種類繁多,資源需求的動態(tài)性、不確定性更加突出。特別值得關(guān)注的是,采用云、邊、端多級算力協(xié)同的方案可以有效提升大模型推理的效能,其核心就是合理的算力調(diào)度,即把最合適的任務(wù)調(diào)度到最合適的計算平臺上去,實現(xiàn)架構(gòu)與功能特征的匹配,并根據(jù)成本、剩余資源情況等動態(tài)更新調(diào)度方案。
大模型的云邊協(xié)同推理充分運用了 智算云平臺的大規(guī)模存儲和處理能力,以及邊緣計算的接近數(shù)據(jù)源的處理能力。在該模式中,連接智算云平臺和邊緣計算平臺的算力網(wǎng)絡(luò)負責(zé)把不同類別的計算任務(wù)調(diào)度到云側(cè)或者邊緣側(cè)。在基于算力調(diào)度的云邊協(xié)同推理方案中,數(shù)據(jù)首先會在端側(cè)的傳感器、移動設(shè)備等地方產(chǎn)生和采集,再被邊緣設(shè)備接收并進行初步處理。這些處理可以包括數(shù)據(jù)清理、預(yù)處理和部分分析等。隨后,數(shù)據(jù)和任務(wù)會根據(jù)性質(zhì)和需求,分配給云側(cè)或邊緣側(cè)進行進一步處理。具體來講,那些需要快速反饋的任務(wù),通常會被留在邊緣側(cè);而那些需要大規(guī)模數(shù)據(jù)分析和深度處理的任務(wù),則會被發(fā)送至云側(cè)?;诤侠淼恼{(diào)度,云、邊、端的算力能夠提供更加高效、靈活的計算服務(wù),在滿足不同任務(wù)需求的同時,提高整體的計算效率。
國家電網(wǎng)的人工智能算力體系采用省側(cè)云、場站邊和設(shè)備端三層架構(gòu),基于算力調(diào)度的大模型云邊協(xié)同推理對于電網(wǎng)業(yè)務(wù)的智能化升級相當(dāng)重要。例如,在全景巡視、設(shè)備巡檢等場景中,位于端側(cè)的無人機、攝像頭等重點負責(zé)圖像、視頻、點云等多種類型數(shù)據(jù)的感知和采集;位于邊側(cè)的場站邊的算力資源數(shù)量、性能有限,在推理階段可重點開展端側(cè)上傳數(shù)據(jù)的缺陷樣本初步篩選,并將篩選后的缺陷樣本傳送至云側(cè);位于云側(cè)的省側(cè)云對缺陷樣本進行深入分析,確定缺陷的類型、位置等信息。在這一過程中,云側(cè)保證了模型具備較高的準確性和智能識別能力,而邊側(cè)的應(yīng)用則確保了實時性和效率。云邊協(xié)同推理方案為相關(guān)場景提供了可靠支持,可有效預(yù)防各類風(fēng)險。
圍繞基于算力調(diào)度的大模型云邊協(xié)同推理,中國電力科學(xué)研究院聯(lián)合中國電信研究院、北京航空航天大學(xué)、中國科學(xué)院網(wǎng)絡(luò)信息中心等先進產(chǎn)學(xué)研合作伙伴,開展了電力人工智能大模型分布式算力調(diào)度與協(xié)同訓(xùn)練推理技術(shù)的攻關(guān),重點面向電力人工智能場景多樣性強、推理實時性高等特點,構(gòu)建基于算力調(diào)度的云邊協(xié)同推理加速器。通過研究基于實時數(shù)據(jù)流調(diào)度的云邊協(xié)同預(yù)處理和推理優(yōu)化策略,提高云邊協(xié)同的數(shù)據(jù)處理效率和推理速度;以此為基礎(chǔ)打造可適配算力網(wǎng)絡(luò)環(huán)境中異構(gòu)算力的輕量級運行環(huán)境,為邊緣設(shè)備提供高效、靈活的計算支持,降低計算任務(wù)的部署和運行成本;同時研究基于網(wǎng)絡(luò)壓縮與切割的深度模型云邊協(xié)同加速機制,為電力人工智能應(yīng)用提供實時、準確的支持,降低計算任務(wù)的延遲和能耗。
當(dāng)前,攻關(guān)工作在異構(gòu)算力支持、模型輕量化、分布式推理加速等方面取得突破,并開展了邊側(cè)算力規(guī)模受限、異構(gòu)算力設(shè)備分布式接入條件下的人工智能模型推理加速實驗。實驗顯示,云邊異構(gòu)算力的協(xié)同調(diào)度既能夠支持低代價、自適應(yīng)的大模型輕量化,又能夠保持推理精度的分布式推理,與電力需求場景實現(xiàn)更好的匹配。
算力作為大模型乃至人工智能發(fā)展的核心支撐力量,其重要性正隨著技術(shù)的演進而越發(fā)凸顯。在大模型時代,模型的參數(shù)規(guī)模和復(fù)雜性呈指數(shù)級增長,對算力的需求也從單機計算邁向了分布式、集群化甚至跨地域、全球化的算力協(xié)同。同時,算力的分布也從傳統(tǒng)的數(shù)據(jù)中心向邊緣計算和終端設(shè)備延伸,特別是為了滿足推理階段的實時性、低延遲等需求,算力需要下沉到邊緣設(shè)備以實現(xiàn)快速響應(yīng)和本地化處理。在這種情況下,將不同層級、不同位置的異構(gòu)算力聯(lián)系起來的算力網(wǎng)絡(luò)作為未來人工智能發(fā)展的重要基礎(chǔ)設(shè)施,打破了傳統(tǒng)單點算力的局限性,通過引入智能化的算力調(diào)度策略,能夠根據(jù)實時需求動態(tài)分配資源,提高資源利用率并降低能耗,這不僅提升了系統(tǒng)的靈活性和響應(yīng)速度,還為人工智能的廣泛應(yīng)用提供了更廣闊的空間。
(作者系中國電信研究院大數(shù)據(jù)與人工智能研究所副所長。編輯:張琴琴)