中國儲能網(wǎng)訊:工業(yè)和信息化部日前出臺《新型數(shù)據(jù)中心發(fā)展三年行動計劃》,統(tǒng)籌推進新型數(shù)據(jù)中心發(fā)展,構(gòu)建以新型數(shù)據(jù)中心為核心的智能算力生態(tài)體系,發(fā)揮對數(shù)字經(jīng)濟的賦能和驅(qū)動作用。新型數(shù)據(jù)中心是以5G、工業(yè)互聯(lián)網(wǎng)、云計算、人工智能等應(yīng)用需求為牽引,匯聚多元數(shù)據(jù)資源、運用綠色低碳技術(shù)、具備安全可靠能力、提供高效算力服務(wù)、賦能千行百業(yè)應(yīng)用的新型基礎(chǔ)設(shè)施,具有高技術(shù)、高算力、高能效、高安全特征。
在當(dāng)前AI、大數(shù)據(jù)蓬勃發(fā)展的時代,新的業(yè)務(wù)需求也在推動著數(shù)據(jù)中心的發(fā)展。一般來說,中小型數(shù)據(jù)中心都有數(shù)以萬計的IT設(shè)備,大型數(shù)據(jù)中心的IT設(shè)備數(shù)量甚至超過10萬臺。面對巨量設(shè)備,IT人如何才能實現(xiàn)運維效率的提升。本文從科技手段視角探索數(shù)據(jù)中心規(guī)?;疘T設(shè)備硬件運維模式。
一、帶外管理結(jié)合AI機器人實現(xiàn)巡檢自動化:
數(shù)據(jù)中心IT設(shè)備通常有服務(wù)器、存儲、帶庫、網(wǎng)絡(luò)等類型,涉及品牌、型號繁雜且數(shù)量眾多,各廠商建設(shè)的五花八門的監(jiān)控平臺無法實現(xiàn)集中統(tǒng)一管理。
IPMI智能平臺管理接口是IT設(shè)備管理的一項協(xié)議標準接口,也是目前業(yè)內(nèi)絕大部分設(shè)備遵循的管理標準。以IPMI協(xié)議作為依托,結(jié)合SNMP等管理協(xié)議,建設(shè)一套集中化的設(shè)備管理平臺,通過監(jiān)測與管理IT設(shè)備上的管理口,直接獲取硬件相關(guān)信息,實現(xiàn)對各類型IT設(shè)備的統(tǒng)一管理及自動化巡檢。
圖一 集中管理平臺
而對于無法通過該項標準接口管理的設(shè)備(如加密設(shè)備等),則通過AI機器人的方式進行巡檢管理。
巡檢機器人在AI自學(xué)習(xí)、機器視覺算法的配合下,對每個機柜的指示燈、設(shè)備溫度、運行噪聲等狀態(tài)進行識別與積累學(xué)習(xí)。每次巡檢時通過攝像頭觀察機柜狀態(tài)的變化,一旦捕捉到設(shè)備有任何異常,則立即通過短信、語音等方式告警,并能引導(dǎo)工程師到達故障發(fā)生位置,減少排查時間。
圖二 機房巡檢機器人
以上兩項舉措,可以大幅降低數(shù)據(jù)中心海量設(shè)備巡檢對于人力的需求。
二、打通最后“一公里”實現(xiàn)報修自動化:
全天候的自動巡檢可以及時發(fā)現(xiàn)設(shè)備故障,發(fā)現(xiàn)故障后如何盡快定位并報修也是一道難題。傳統(tǒng)的報修模式是設(shè)備發(fā)生故障后,運維人員通過帶外采集設(shè)備日志進行報修并提供給廠商,由廠商工程師進行分析定位及維修。由于未與廠商維修流程貫通,此種模式受人工報修、采集設(shè)備日志等環(huán)節(jié)影響,效率并不高。 因此進一步提升效率,打通數(shù)據(jù)中心內(nèi)流程與廠商報修流程的系統(tǒng)接口,是關(guān)鍵一步。
建立自動報修系統(tǒng),依據(jù)設(shè)備告警分級策略自動報修,打通與廠商技術(shù)支撐系統(tǒng)接口,自動采集設(shè)備日志并推送廠商,節(jié)省中間人工環(huán)節(jié),跟蹤處理全流程進展直至閉環(huán),實現(xiàn)設(shè)備從發(fā)現(xiàn)告警到報修處理完成的全流程自動化。
圖三 打通最后一公里
三、5G+AR打造硬件的可視化運維:
利用5G的大帶寬和低延遲特點,通過AR技術(shù)及設(shè)備實時展示機柜內(nèi)相關(guān)設(shè)備硬件信息、CPU使用率、內(nèi)存使用率、硬盤狀態(tài)、機體溫度等,幫助運維人員及時了解設(shè)備狀態(tài)和歷史數(shù)據(jù),并在故障發(fā)生時給出處理方案,提高運維人員工作效率及準確性。遇到技術(shù)難題時,可以基于AR設(shè)備實現(xiàn)與后臺系統(tǒng)的信息交互獲得故障現(xiàn)場視覺,完成現(xiàn)場與后臺數(shù)據(jù)比對,并在實際設(shè)備虛擬影像中圈點精確標注出需要更換的配件位置,還可以引入技術(shù)專家,實時視覺指導(dǎo)完成處理故障。
圖三AR可視化機房設(shè)備管理
四、機房設(shè)備資產(chǎn)數(shù)字化管理模式
為保證業(yè)務(wù)連續(xù)和穩(wěn)定,金融業(yè)內(nèi)普遍采用異地多數(shù)據(jù)中心的災(zāi)備架構(gòu)方式,必然推動IT設(shè)備種類、數(shù)量呈現(xiàn)規(guī)?;鲩L。海量的設(shè)備導(dǎo)致資產(chǎn)管理難度越來越大,而這些設(shè)備資產(chǎn)如采用傳統(tǒng)人工錄入方式,會存在成本高、效率低、易差錯等問題;設(shè)備變更時還需要主動修改相關(guān)信息,時間長也會產(chǎn)生資產(chǎn)信息不準確等問題。引進機柜內(nèi)U位資產(chǎn)管理模塊——以RFID、NFC技術(shù)等為依托,完成資產(chǎn)發(fā)現(xiàn)、資產(chǎn)記錄及計算各類數(shù)據(jù),實現(xiàn)U位資產(chǎn)實時定位、自動盤點的功能,實時掌握機房內(nèi)U位使用情況,真正地做到U位資產(chǎn)和資源管理數(shù)字化。
圖四 資產(chǎn)管理模塊
未來展望:5G、大數(shù)據(jù)、人工智能、圖像識別等新技術(shù)的蓬勃興起,推動著數(shù)據(jù)中心管理技術(shù)的發(fā)展,勢必會給數(shù)據(jù)中心的數(shù)字化運維帶來質(zhì)的突變。如何利用新技術(shù)促進運維轉(zhuǎn)型,是值得每個運維人思考的問題。