中國儲(chǔ)能網(wǎng)訊:數(shù)據(jù)中心的存在,就是為了保障計(jì)算的安全與可連續(xù)性。然而,僅僅最近三年中,數(shù)據(jù)中心發(fā)生了十余件故障乃至災(zāi)難。詳見:《盤點(diǎn):近年數(shù)據(jù)中心十大災(zāi)難事件》
數(shù)據(jù)中心系統(tǒng)龐雜,運(yùn)維安全本就不易,近年來的極端氣候、技術(shù)發(fā)展等因素,也為數(shù)據(jù)中心高可靠性帶來了新挑戰(zhàn),我們應(yīng)該如何預(yù)防與應(yīng)對(duì)?
數(shù)據(jù)中心故障“老面孔”
經(jīng)過盤點(diǎn)近年來災(zāi)難事件不難發(fā)現(xiàn),電力系統(tǒng)、制冷系統(tǒng)、人工操作一直是導(dǎo)致數(shù)據(jù)中心故障的最常見因素。
線路老化
線路老化引發(fā)火災(zāi),常見于建成多年的數(shù)據(jù)中心,韓國SK數(shù)據(jù)中心火災(zāi)就是由于線路起火導(dǎo)致的。
線路故障的主要原因是舊+熱:
舊:電線外包絕緣層,正常使用壽命在10~20年,線路老化后,可能造成破損,絕緣性能下降,遇到液體或濕度過大時(shí)容易引起短路、著火。
熱:根據(jù)焦耳定律,負(fù)載電流經(jīng)過電線時(shí)產(chǎn)生熱量。數(shù)據(jù)中心24小時(shí)運(yùn)轉(zhuǎn),電線長期高負(fù)荷運(yùn)行情況下,高溫加速線路絕緣老化,以至絕緣被擊穿。
UPS/電池故障
Telstra英國數(shù)據(jù)中心火災(zāi)、北京郵電大學(xué)數(shù)據(jù)中心火災(zāi),即由電池故障導(dǎo)致。
數(shù)據(jù)中心電池/UPS故障的主要原因有過度循環(huán)放電、電池接頭密封不嚴(yán)、鏈接松動(dòng)、高溫、高浮/低浮充電壓等。鉛酸電池一般壽命為5年,鋰電池壽命在10年左右,隨著電池使用年限的增加,性能降低,故障率也隨之提升。如果維護(hù)、檢查疏漏,可能未及時(shí)更換快到年限的電池。
又因?yàn)閿?shù)據(jù)中心電池?cái)?shù)量龐大,串聯(lián)及并聯(lián)使用,一旦一節(jié)電池故障后起火、爆炸,會(huì)蔓延造成大的災(zāi)難事故。鋰電池一旦起火爆炸的危險(xiǎn)性高于鉛酸電池,滅火難度也更大。例如2021年北京市豐臺(tái)區(qū)西紅門儲(chǔ)能電站起火爆炸事故,就是因?yàn)殡姵亻g內(nèi)磷酸鐵鋰電池發(fā)生內(nèi)短路故障,引發(fā)電池?zé)峁收掀鸹鸷蛿U(kuò)散,進(jìn)而遇電氣火花發(fā)生爆炸。
近年來鋰電池應(yīng)用中受到主要疑慮即來自于此。
制冷故障
無論是壓縮機(jī)、安全閥抑或停水導(dǎo)致的制冷故障、制冷效率低,均會(huì)引發(fā)機(jī)房溫度升高,影響設(shè)備性能,如果不能及時(shí)處理,機(jī)房溫度持續(xù)上升,或因過熱宕機(jī),服務(wù)中斷、硬件損壞、數(shù)據(jù)丟失。
人工誤操作
日常巡檢是數(shù)據(jù)中心的重要保障手段,但操作不當(dāng)也是造成故障的重要原因。此前多起數(shù)據(jù)中心起火就是由于人員操作不當(dāng)產(chǎn)生電火花,引燃易燃材料導(dǎo)致的,也有數(shù)據(jù)中心在維護(hù)保養(yǎng)時(shí)未嚴(yán)格執(zhí)行工作手冊(cè),導(dǎo)致電池短路等故障。
導(dǎo)致數(shù)據(jù)中心業(yè)務(wù)中斷因素占比統(tǒng)計(jì)
來源:Uptime Institute2021年全球數(shù)據(jù)中心調(diào)查報(bào)告
研究機(jī)構(gòu)Uptime發(fā)布的《2021年全球數(shù)據(jù)中心調(diào)查報(bào)告》也說明,導(dǎo)致數(shù)據(jù)中心業(yè)務(wù)中斷的因素中,電力、網(wǎng)絡(luò)、制冷占前三位。
越發(fā)展越“危險(xiǎn)”
數(shù)據(jù)中心那些新挑戰(zhàn)
近年來極端氣候、疫情、技術(shù)發(fā)展等,也為數(shù)據(jù)中心的高可靠性帶來了新的挑戰(zhàn)。忽視極小概率導(dǎo)致被淹、宕機(jī)的多起前車之鑒在前,從業(yè)人員面對(duì)這些新變數(shù),必須提高警惕性。筆者根據(jù)此前訪問與了解,試總結(jié)如下:
數(shù)據(jù)中心規(guī)模愈大,運(yùn)維管理愈難。
數(shù)據(jù)中心建設(shè)呈現(xiàn)規(guī)?;?、集約化趨勢,近年來新建項(xiàng)目少見小型、中型數(shù)據(jù)中心,多為大型、超大型數(shù)據(jù)中心園區(qū),分多期建設(shè)完成。
而數(shù)據(jù)中心體系龐大管理復(fù)雜,暖通系統(tǒng)、電力系統(tǒng)、弱電系統(tǒng)、消防系統(tǒng)……一個(gè)1000機(jī)柜的數(shù)據(jù)中心就擁有測點(diǎn)10萬+,規(guī)模增加的同時(shí),巡檢耗時(shí)、運(yùn)維故障排查難度成倍提升,容易造成疏漏和盲點(diǎn),進(jìn)而引發(fā)安全事故。
高功率高密度,應(yīng)急時(shí)間被壓縮。
正如Azure美東數(shù)據(jù)中心的災(zāi)難事件,當(dāng)數(shù)據(jù)中心冷卻出現(xiàn)故障,機(jī)房溫度不斷升高,服務(wù)器出現(xiàn)異常,如果運(yùn)維團(tuán)隊(duì)不能及時(shí)排障處理,高溫導(dǎo)致將服務(wù)器宕機(jī)、設(shè)備損壞。
近年來,數(shù)據(jù)中心的服務(wù)器單機(jī)柜功率密度不斷提高,服務(wù)器高負(fù)荷下工作產(chǎn)生的熱量隨之增大,機(jī)房升溫迅速,留給運(yùn)維的應(yīng)急處理時(shí)間被壓縮。有從業(yè)者曾表示“現(xiàn)在5分鐘機(jī)房溫度可以升高3~5℃,20分鐘內(nèi)溫度將升高約15~20℃,如果說曾經(jīng)留給運(yùn)維團(tuán)隊(duì)定位、處理故障的應(yīng)急時(shí)間有30分鐘以上,現(xiàn)在已經(jīng)壓縮到10分鐘甚至更短。”
極端氣候頻發(fā)
近年來全球極端天氣頻發(fā),干旱、暴雨、高溫,很多地區(qū)遭遇未有過的反常天氣,給數(shù)據(jù)中心可靠性帶來新挑戰(zhàn)。
例如英國屬溫帶海洋性氣候,最高溫不會(huì)超過32℃,但今年卻達(dá)到驚人的42℃,“極端高溫天氣遠(yuǎn)超數(shù)據(jù)中心運(yùn)營者設(shè)計(jì)之初的預(yù)期”。同樣,我國北方很多地區(qū)年均降雨量不高,因此沒有完善的汛情應(yīng)對(duì)預(yù)案,部分?jǐn)?shù)據(jù)中心連抽水泵等物資都儲(chǔ)備不足,也沒有考慮到積水時(shí)供油運(yùn)輸問題。今年,四川等地遭遇罕見大旱,水電來水偏枯,城市開啟限電措施,部的數(shù)據(jù)中心只能長時(shí)間依靠柴發(fā)運(yùn)轉(zhuǎn)。
疫情變量
當(dāng)所在地出現(xiàn)疫情感染時(shí),或區(qū)域封控時(shí),怎樣保證數(shù)據(jù)中心正常運(yùn)轉(zhuǎn),同時(shí)保護(hù)好數(shù)據(jù)中心工作人員的健康安全?從業(yè)務(wù)連續(xù)性到客戶緊急需求的處理,從運(yùn)維團(tuán)隊(duì)配置、人員衣食住行,到內(nèi)部防疫防感染、進(jìn)出限制措施,都需要數(shù)據(jù)中心形成完善制度,避免緊急情況下措手不及,引發(fā)宕機(jī)或大面積感染事件。
從選址設(shè)計(jì)到買保險(xiǎn)
數(shù)據(jù)中心安全面面重
說過這么多災(zāi)難案例與故障因素,需要強(qiáng)調(diào)的是,災(zāi)難預(yù)防和應(yīng)對(duì)絕不僅僅是數(shù)據(jù)中心的事。數(shù)據(jù)中心的高可靠性,需要多方共同參與構(gòu)建,正如木桶效應(yīng),任何一處短板都會(huì)造成疏漏。
選址規(guī)劃設(shè)計(jì)關(guān)注危險(xiǎn)因素
自然資源是數(shù)據(jù)中心選址規(guī)劃時(shí)的重要考慮因素,如常年低溫、氣候干燥、水資源豐富、水電充沛,這些都會(huì)給數(shù)據(jù)中心運(yùn)營帶來優(yōu)勢。
然而,全球極端天氣頻發(fā),各區(qū)域氣候也逐漸發(fā)生改變。正如今夏倫敦某數(shù)據(jù)中心負(fù)責(zé)人所說,“數(shù)據(jù)中心在設(shè)計(jì)之初就考慮到忍耐高溫的問題,但是目前的極端高溫天氣已經(jīng)遠(yuǎn)遠(yuǎn)超出了許多數(shù)據(jù)中心運(yùn)營者在設(shè)計(jì)之初的預(yù)期?!?
因此,數(shù)據(jù)中心的選址設(shè)計(jì)必須要考慮更多氣候變量,常年涼爽地區(qū)可能面臨高溫,干旱地區(qū)或許遭遇暴雨,水電充沛多路市電接入,電力也絕非保障無虞,極端天氣還可能使當(dāng)?shù)厣僖姷纳交?、滑坡等意外概率大大提升?
曾經(jīng)不可能出現(xiàn)的氣候問題,需要被數(shù)據(jù)中心設(shè)計(jì)方和運(yùn)營方加入考慮,避免出現(xiàn)河南汛情和倫敦高溫導(dǎo)致的宕機(jī),等“超出設(shè)計(jì)預(yù)期”的情況。
基礎(chǔ)設(shè)施共同構(gòu)建安全
各系統(tǒng)設(shè)備廠商可以通過多方面行動(dòng)助力數(shù)據(jù)中心安全,降低或預(yù)防災(zāi)難可能性。
首先,不斷提升設(shè)備性能。例如制冷系統(tǒng)廠商美的樓宇科技推出的多款制冷解決方案,針對(duì)當(dāng)前數(shù)據(jù)中心散熱高、空調(diào)能耗高等痛點(diǎn),有效提升制冷效率。
其次,應(yīng)用新技術(shù)、研發(fā)新產(chǎn)品,補(bǔ)齊數(shù)據(jù)中心故障短板,提高整體安全性。例如克萊沃在IDCC大會(huì)上所介紹小母線和智能PDU在數(shù)據(jù)中心的應(yīng)用,產(chǎn)品更耐高溫、避免電涌侵襲,減少電線變形和電路損壞,提高供配電系統(tǒng)穩(wěn)定性。
第三,在應(yīng)用新技術(shù)推出新產(chǎn)品前,做好新技術(shù)的安全保障,開展嚴(yán)格的可靠性測試驗(yàn)證。例如華為數(shù)字能源對(duì)SmartLi智能鋰電產(chǎn)品在實(shí)驗(yàn)室進(jìn)行熱插拔測試并聯(lián)不均流度,在TUV機(jī)構(gòu)進(jìn)行針刺實(shí)驗(yàn),分別測試三元鋰、錳酸鋰和磷酸鐵鋰電芯針刺后的反應(yīng),觀察是否會(huì)熱失控起火,驗(yàn)證其電池產(chǎn)品的穩(wěn)定性。
第四,從設(shè)備層面實(shí)現(xiàn)智能化、數(shù)字化,推出智能管理系統(tǒng),實(shí)現(xiàn)設(shè)備可視化運(yùn)行、故障預(yù)測、定位,降低運(yùn)維難度與壓力,進(jìn)而減少疏漏。例如中興通訊的iDCIM數(shù)據(jù)中心智能管理系統(tǒng),支持百萬級(jí)測點(diǎn)接入,多維可視,支持機(jī)器人巡檢,可以實(shí)現(xiàn)數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期管理。
自主研發(fā) 提高可靠性
最了解數(shù)據(jù)中心的,還是數(shù)據(jù)中心。
除了使用各類廠商的設(shè)備和管理系統(tǒng),也有走在行業(yè)前列的數(shù)據(jù)中心,將運(yùn)營經(jīng)驗(yàn)積累沉淀成體系,根據(jù)需求自己研發(fā)管理系統(tǒng)、軟硬件,用于提高可靠性。
例如萬國數(shù)據(jù)基于運(yùn)營八十幾座數(shù)據(jù)中心的需求,構(gòu)建了三層的全球數(shù)據(jù)中心運(yùn)營架構(gòu),還在IDCC2021上推出了第一代Smart DC,其中智能運(yùn)營方面,基于運(yùn)營實(shí)踐及自研軟硬件協(xié)同,形成X-BP系列產(chǎn)品,打造更懂?dāng)?shù)據(jù)中心的機(jī)電系統(tǒng),實(shí)現(xiàn)全棧智能管理、最優(yōu)化TCO。
災(zāi)備與兩地三中心
“不要把雞蛋放在一個(gè)籃子里”,這句名言是容災(zāi)備份、兩地三中心的最好廣告詞。由于政策及合規(guī)性要求,金融用戶尤其關(guān)注容災(zāi)備份。
IDC圈獲悉,自去年起多個(gè)銀行、金融機(jī)構(gòu)啟動(dòng)了災(zāi)備數(shù)據(jù)中心的建設(shè)計(jì)劃,其中和林格爾等“東數(shù)西算”節(jié)點(diǎn)是熱門選址地。中國銀行、中國農(nóng)業(yè)銀行、中國建設(shè)銀行等多個(gè)金融機(jī)構(gòu)已經(jīng)在和林格爾布局建設(shè)數(shù)據(jù)中心。
買保險(xiǎn)
數(shù)據(jù)中心承載愈來愈重要,直接關(guān)系社會(huì)民生,一旦發(fā)生災(zāi)難,對(duì)數(shù)據(jù)中心及用戶都將帶來巨大的金錢和形象損失,保險(xiǎn)就成了最后的保障。
IDC圈向保險(xiǎn)行業(yè)人士了解到,數(shù)據(jù)中心保險(xiǎn)可以分為三類:
第一類財(cái)產(chǎn)損失保險(xiǎn)
屬于傳統(tǒng)保險(xiǎn),財(cái)產(chǎn)險(xiǎn)保險(xiǎn)公司都可以提供該服務(wù),只是估值方式不同,如何評(píng)估資產(chǎn)和損失。這類保險(xiǎn)偏向于物理損失,一般以火災(zāi)、地震等自然災(zāi)害等情況比較多,基本上數(shù)據(jù)中心都有購買這類保險(xiǎn)。
第二類,偏損失類的網(wǎng)絡(luò)安全保險(xiǎn)
一般財(cái)產(chǎn)保險(xiǎn)公司或責(zé)任險(xiǎn)保險(xiǎn)公司專門有這類產(chǎn)品。有別于財(cái)產(chǎn)保險(xiǎn)偏向于物理的損失,網(wǎng)絡(luò)安全保險(xiǎn)偏向于受到外部攻擊,如DOS、安全攻擊等造成了設(shè)備和軟硬件損失,發(fā)生的維修維護(hù)費(fèi)用。
第三類,偏責(zé)任類的網(wǎng)絡(luò)安全或者數(shù)據(jù)安全保險(xiǎn)
這類屬于新型保險(xiǎn),保的是數(shù)據(jù)中心企業(yè)自身的責(zé)任,實(shí)際是給客戶的——如果數(shù)據(jù)中心遭遇攻擊等,客戶數(shù)據(jù)被泄露、丟失、損壞、篡改以及軟硬件遭受損害,有明確佐證下會(huì)獲得賠付。網(wǎng)絡(luò)安全保險(xiǎn)主險(xiǎn)往往還會(huì)有營業(yè)中斷損失保險(xiǎn)、隱私泄露責(zé)任保險(xiǎn)、網(wǎng)絡(luò)勒索保險(xiǎn)等附加險(xiǎn)。
某保險(xiǎn)公司針對(duì)數(shù)據(jù)中心的保險(xiǎn)方案
因此,數(shù)據(jù)中心保險(xiǎn)的構(gòu)成相對(duì)于大家熟知的人身保險(xiǎn)、財(cái)產(chǎn)保險(xiǎn)更為復(fù)雜,企業(yè)可以找提供財(cái)產(chǎn)險(xiǎn)和責(zé)任險(xiǎn)的保險(xiǎn)公司咨詢,也可以請(qǐng)筆者咨詢到的大童保險(xiǎn)這類專業(yè)保險(xiǎn)中介提供服務(wù),訂制符合需求的保險(xiǎn)產(chǎn)品與承包范圍。
如果數(shù)據(jù)中心購買了保險(xiǎn)產(chǎn)品,一旦出現(xiàn)故障、災(zāi)難事件,例如著火造成客戶服務(wù)中斷,是否賠付具體要看承包的保險(xiǎn)產(chǎn)品責(zé)任屬性,是服務(wù)中斷責(zé)任、是數(shù)據(jù)丟失責(zé)任、還是信息泄露的責(zé)任,是否在保險(xiǎn)范圍內(nèi)??偠灾kU(xiǎn)的購買、責(zé)任認(rèn)定和估值都比較復(fù)雜。如大家有興趣詳細(xì)了解,IDC圈將邀請(qǐng)專業(yè)人士深入采訪,撰文介紹。
智者千慮,必有一失。當(dāng)前,數(shù)據(jù)中心災(zāi)難預(yù)防應(yīng)對(duì)正面臨諸多新挑戰(zhàn),而數(shù)據(jù)中心的高可靠性需要多方共同參與構(gòu)建。