數(shù)據(jù)中心防火預(yù)案的重要性
數(shù)據(jù)中心對火災(zāi)的管理,也應(yīng)隨著國家戰(zhàn)略的落地、數(shù)據(jù)中心在國民經(jīng)濟(jì)中發(fā)揮越來越重要的關(guān)鍵作用,而進(jìn)行更加全面的有效管理,將目前以風(fēng)險管控和應(yīng)急預(yù)案為主的防火防災(zāi)管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數(shù)據(jù)中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務(wù)為目標(biāo)的火災(zāi)場景下的服務(wù)連續(xù)性管理,數(shù)據(jù)中心應(yīng)制定詳盡的火災(zāi)場景下的服務(wù)連續(xù)性計劃。
1、火災(zāi)情況
總部位于法國魯貝的法國獨角獸公司OVHCloud(前身為OVH),在全球擁有27個數(shù)據(jù)中心,OVH是歐洲最大的托管服務(wù)提供商,也是世界第三大托管服務(wù)提供商,其位于法國斯特拉斯堡的數(shù)據(jù)中心園區(qū),共包括SBG1、SBG2、SBG3和SBG4四棟數(shù)據(jù)中心建筑。2021年當(dāng)?shù)貢r間3月10日凌晨,一場大火燒毀了法國斯特拉斯堡OVHCloud的鋼結(jié)構(gòu)SBG2數(shù)據(jù)中心,導(dǎo)致其托管的許多網(wǎng)站中某些數(shù)據(jù)永久丟失(見圖1)。
根據(jù)該公司網(wǎng)站上的事件報告稱,大火在當(dāng)?shù)貢r間凌晨1點在SBG2內(nèi)的一間房內(nèi)發(fā)生。到凌晨4點左右,大火完全摧毀了OVH的SBG2數(shù)據(jù)中心,并波及摧毀了SBG1八個服務(wù)器機(jī)房中的四個房間。OVH創(chuàng)始人和董事長奧克塔夫·克拉巴(OctaveKlaba)在推特更新中表示,SBG3中的所有服務(wù)器均完好無損,SBG4不受大火影響。但這些數(shù)據(jù)中心均由于這次事件停止服務(wù),處于離線狀態(tài)。
據(jù)了解,OVH的上一次重大停機(jī)危機(jī)也發(fā)生在斯特拉斯堡園區(qū)。2017年曾導(dǎo)致整個園區(qū)停電約40min。Klaba表示,該事件與停電無關(guān),是由于網(wǎng)絡(luò)設(shè)備中的一個無關(guān)軟件漏洞,導(dǎo)致其位于魯拜克斯(RoubaiX)的園區(qū)失去了與其網(wǎng)絡(luò)上六個關(guān)鍵點的所有連接。
至于本次火災(zāi)原因,目前還沒有正式的官方公告,但多種事實指向了UPS設(shè)備導(dǎo)致的一系列故障。在火災(zāi)發(fā)生的前一天,供應(yīng)商對UPS7進(jìn)行了維護(hù),Klaba稱供應(yīng)商在UPS7內(nèi)部更換了某些部件,并在下午重新啟動了它。
雖然直流電匯聚成高壓時,的確會有失火的風(fēng)險,Klaba并沒有說UPS就是此次失火事件的起因。他說:“我們今天并沒有得到所有的答案?!監(jiān)VHcloud的工作人員在周二晚上11點42分響應(yīng)火災(zāi)警報,但數(shù)據(jù)中心受影響的部分已經(jīng)煙霧彌漫:“兩分鐘后,他們決定離開,因為太危險了?!?/span>
2、相關(guān)組織和媒體的災(zāi)后報道與反思
事發(fā)后,國內(nèi)很多組織開始結(jié)合這次火災(zāi)的事實,并且不局限于本次火災(zāi)擴(kuò)展開來,分析火災(zāi)風(fēng)險、成因以及對策,希望能夠為數(shù)據(jù)中心行業(yè)減少火災(zāi)發(fā)生,做出一點貢獻(xiàn)。
仔細(xì)研讀后,我發(fā)現(xiàn)這些分析文章的觀點都集中在起火原因分析,并且大多只分析技術(shù)上的起火原因,比如短路、過載、接觸不良、漏電、線路老化或散熱等,所給出的對策也多集中在針對這些起火原因,減少起火概率和早發(fā)現(xiàn)等方面,例如使用極早期煙霧探測技術(shù)、增加火災(zāi)高風(fēng)險設(shè)施的監(jiān)控、加強(qiáng)巡檢、定期更換老化的元器件、完工驗收與檢測等等。
然而,僅僅如此分析顯然不夠。從本次火災(zāi)的現(xiàn)有記錄來看,在凌晨1點確認(rèn)SBG2的一間房內(nèi)發(fā)生大火的1個多小時之前,就已觸發(fā)火警,不可謂發(fā)現(xiàn)不及時,然而這么長時間,為什么沒有有效處置?直到凌晨4點在外部消防力量介入下才控制火勢,防火分區(qū)為什么沒有發(fā)揮足夠的作用?為什么數(shù)據(jù)中心自身的滅火系統(tǒng)沒有發(fā)揮有效作用?為什么沒有受到火災(zāi)影響的部分也無法提供服務(wù)?說好的多路由呢?這次火災(zāi)從故障發(fā)煙到起火,從小災(zāi)到大災(zāi)再到影響眾多下游企業(yè)和政府部門業(yè)務(wù)的系統(tǒng)性大災(zāi)難,這個演變過程,豈是上面那些原因可以覆蓋的?
3、有必要全面地反思火災(zāi)成因
火災(zāi)一詞是由兩個字構(gòu)成的,因火成災(zāi)才能被稱作火災(zāi)。所以我們分析火災(zāi)原因的時候,不僅要分析起火原因,還要分析致災(zāi)原因。大家都知道,火災(zāi)重在預(yù)防,但是防什么?不僅僅要防火,還要防災(zāi)!
關(guān)于起火原因以及對策,如前所述,其他組織和各種媒體多有反思,不再贅述。
雖然這次火災(zāi)的原因尚無正式結(jié)論,該數(shù)據(jù)中心的關(guān)鍵數(shù)據(jù)也未披露,所以致災(zāi)原因也無法準(zhǔn)確判斷,但是這也不妨礙我們就常見的致災(zāi)原因進(jìn)行舉例說明。
首先是防火防災(zāi)意識淡漠,這是數(shù)據(jù)中心火災(zāi)頻發(fā)的最根本原因。例如某四大行總行數(shù)據(jù)中心的總經(jīng)理就曾經(jīng)指責(zé)手下分管副總經(jīng)理部署火災(zāi)防范工作是做無用功,他的觀點非常有代表性,這位總經(jīng)理說我們數(shù)據(jù)中心用的都是難燃阻燃的材料,怎么可能著火?持這種觀點的人不在少數(shù)。甚至在出了這次OVH火災(zāi)后,又有媒體說,把數(shù)據(jù)中心放到海底去,就不會發(fā)生火災(zāi)了。如果真的是這樣,為什么各國海軍常有潛艇火災(zāi)的報道?以為海底數(shù)據(jù)倉不存在氧氣就不會有火災(zāi),但是你知道不僅只有氧氣才可以助燃嗎?在極高能量密度的封閉空間,有誰能保證不會起火、甚至爆炸?一旦有了這種意識,自然就不會在防火防災(zāi)上下功夫。
其次,數(shù)據(jù)中心設(shè)計上存在缺陷。數(shù)據(jù)中心的設(shè)計應(yīng)確保數(shù)據(jù)中心在具備足夠高的可用性水平的基礎(chǔ)上,還要有足夠的韌性,確保數(shù)據(jù)中心在局部受損的情況下還能夠具備可接受的有限服務(wù)能力。數(shù)據(jù)中心的設(shè)計師缺乏防火防災(zāi)意識,就會體現(xiàn)到數(shù)據(jù)中心設(shè)計上。例如他們以為GB50174數(shù)據(jù)中心設(shè)計規(guī)范中對A級數(shù)據(jù)中心不存在單點故障的原則要求與火災(zāi)場景無關(guān),防火的問題僅需要遵循防火規(guī)范的要求而不需要為數(shù)據(jù)中心進(jìn)行專門的考慮。例如我在即將進(jìn)入土建施工階段的一個業(yè)主要求建成全球一流數(shù)據(jù)中心的大型A級數(shù)據(jù)中心的設(shè)計圖紙上看到,雙路供電的兩路本該完全隔離的配電系統(tǒng)、UPS系統(tǒng)被設(shè)計進(jìn)了同一個防火分區(qū),于是只要其中一臺設(shè)備起火,就會導(dǎo)致整個數(shù)據(jù)中心完全斷電,成為單點故障。
再次,建造瑕疵。例如我已經(jīng)在不止一個數(shù)據(jù)中心看到,現(xiàn)場與圖紙防火分區(qū)不對應(yīng)、消防點位不對應(yīng)、防火分區(qū)與滅火鋼瓶不對應(yīng),甚至發(fā)現(xiàn)有的氣滅分區(qū)根本不存在氣體管路。
這些給后期運維團(tuán)隊有效處置火險帶來了極大的不確定因素,并且通常不易發(fā)現(xiàn)不易驗證,核對費時費力。前面那位總經(jīng)理又有經(jīng)典言論:實際與圖紙不符是工程部門的責(zé)任,我們數(shù)據(jù)中心只需按圖操作,沒必要去核實。
最后,到了運維和使用階段,往往也因為意識淡漠,不重視消防工作,導(dǎo)致防不了火,防不了災(zāi),小火成災(zāi)。比如前面提到的不去做核實工作,不能識別和控制風(fēng)險;對動火作業(yè)的管理缺失,留下起火成災(zāi)的隱患;放任包裝紙箱等易燃品進(jìn)入關(guān)鍵區(qū)域并處于無人看管狀態(tài),留下了火勢擴(kuò)大的隱患;為了維護(hù)作業(yè)方便,不及時關(guān)閉防火門,布線作業(yè)破壞防火封堵后不及時修復(fù)等導(dǎo)致防火分區(qū)失效;滅火器配備不足、滅火器送檢期間未補(bǔ)充替代滅火器,不會使用二氧化碳滅火器等,導(dǎo)致初起火險無法撲滅;過渡依賴聯(lián)動滅火,不會手動操作;組織演練時只演不練,做表面文章,人員不熟悉預(yù)案,未驗證預(yù)案在夜間及節(jié)假日只有值班人員時的有效性,系統(tǒng)運行方式調(diào)整卻不及時更新預(yù)案等,導(dǎo)致預(yù)案在需要的時候不能使用……
更近一步,我們還應(yīng)當(dāng)引導(dǎo)客戶合理使用數(shù)據(jù)中心,引導(dǎo)客戶采取措施,減少因數(shù)據(jù)中心服務(wù)中斷給客戶帶來更大的損失。例如對于業(yè)務(wù)連續(xù)性要求高,難以接受業(yè)務(wù)中斷的客戶,我們應(yīng)當(dāng)引導(dǎo)客戶采用災(zāi)備、多活等高可用方案,將其系統(tǒng)分布部署到有一定距離的不同地點的兩個或者更多的數(shù)據(jù)中心中;對于業(yè)務(wù)連續(xù)性要求不高,尚可接受一定程度的業(yè)務(wù)中斷,但業(yè)務(wù)數(shù)據(jù)價值高的客戶,應(yīng)引導(dǎo)客戶進(jìn)行數(shù)據(jù)備份并異地保存等。再例如數(shù)據(jù)中心場地資源分配使用時,可引導(dǎo)客戶按照業(yè)務(wù)系統(tǒng)重要性和業(yè)務(wù)連續(xù)性要求的不同合理分區(qū)部署,確保當(dāng)數(shù)據(jù)中心部分受損,服務(wù)能力不足時,有條件優(yōu)先保障業(yè)務(wù)連續(xù)性要求高的重要業(yè)務(wù)系統(tǒng)的正常運行。而現(xiàn)實中,數(shù)據(jù)中心為了獲客,往往宣傳一個看似合理的虛高的可用性,使得客戶對單體數(shù)據(jù)中心抱有不切實際的奢望,使數(shù)據(jù)中心火災(zāi)變成了一個牽扯眾多的系統(tǒng)性災(zāi)難,對給客戶造成的損失和聲譽(yù)影響甩鍋給客戶:誰讓你不做好災(zāi)備呢,數(shù)據(jù)丟了你賴誰!
凡此種種,都可能導(dǎo)致小火成災(zāi),小災(zāi)變大難。這還僅僅枚舉了一部分,遠(yuǎn)非火災(zāi)原因的全部。
4、新基建背景下,數(shù)據(jù)中心火災(zāi)管理的新要求
當(dāng)前隨著中國制造2025、網(wǎng)絡(luò)強(qiáng)國戰(zhàn)略、國家大數(shù)據(jù)戰(zhàn)略、數(shù)字化轉(zhuǎn)型、兩化融合、互聯(lián)網(wǎng)+、一帶一路、云計算、大數(shù)據(jù)、CPS(信息物理網(wǎng)絡(luò))等新的一批國家戰(zhàn)略制定和新技術(shù)如火如荼的發(fā)展,數(shù)據(jù)中心成為支撐這些國家戰(zhàn)略落地的關(guān)鍵基礎(chǔ)設(shè)施,特別是2020年3月4日中共中央政治局常務(wù)委員會召開會議,會議強(qiáng)調(diào)“要加大公共衛(wèi)生服務(wù),應(yīng)急物資保障領(lǐng)域投入,加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度。要注重調(diào)動民間投資積極性?!辈粌H將使數(shù)據(jù)中心建設(shè)進(jìn)入了一個高潮期,同時,各行各業(yè)也將對數(shù)據(jù)中心越來越依賴,在銀行業(yè)后,將誕生更多對數(shù)據(jù)中心高度依賴的行業(yè)。包括火災(zāi)在內(nèi)的數(shù)據(jù)中心服務(wù)的中斷不再是數(shù)據(jù)中心自己的事,將會成為一個系統(tǒng)性的社會風(fēng)險,必須引起數(shù)據(jù)中心從業(yè)人員的高度的重視(參見圖2)。
數(shù)據(jù)中心對火災(zāi)的管理,也應(yīng)隨著國家戰(zhàn)略的落地、數(shù)據(jù)中心在國民經(jīng)濟(jì)中發(fā)揮越來越重要的關(guān)鍵作用,而進(jìn)行更加全面的有效管理,將目前以風(fēng)險管控和應(yīng)急預(yù)案為主的防火防災(zāi)管理,改變?yōu)橹塾跒楦餍袠I(yè),特別是對數(shù)據(jù)中心高度依賴的行業(yè),提供連續(xù)穩(wěn)定的支撐服務(wù)為目標(biāo)的火災(zāi)場景下的服務(wù)連續(xù)性管理(參見圖3),數(shù)據(jù)中心應(yīng)制定詳盡的火災(zāi)場景下的服務(wù)連續(xù)性計劃。做好以Reduce(減小)為目標(biāo),追求零火險、零災(zāi)難和零中斷的風(fēng)險管理與日常運營計劃;做好滿足快速滅火、減少傷亡、減少損失、業(yè)務(wù)連續(xù)、信息安全、環(huán)境影響等多方面目標(biāo)要求的應(yīng)急響應(yīng)(Respond)和業(yè)務(wù)恢復(fù)計劃,確保數(shù)據(jù)中心設(shè)施資源能夠快速的恢復(fù)(Recover)到最低可接受的可用性水平,重續(xù)(Resume)數(shù)據(jù)中心服務(wù);還要事先做好災(zāi)后重建(Restore)計劃,確保數(shù)據(jù)中心有可用資源用于重建,盡快將數(shù)據(jù)中心服務(wù)水平返回(Return)到災(zāi)前水平。
作者簡介
趙勇祥
北京太極華??萍脊煞萦邢薰緮?shù)據(jù)中心總工,北京中網(wǎng)數(shù)信息技術(shù)研究院有限公司副院長,本刊編委,部分國有政策性銀行、政府組成部門、科研院所的專家?guī)斐蓡T。曾長期服務(wù)于中金數(shù)據(jù)系統(tǒng)有限公司、聯(lián)想集團(tuán)數(shù)據(jù)中心等知名數(shù)據(jù)中心企業(yè)和企業(yè)數(shù)據(jù)中心。具有二十余年信息技術(shù)行業(yè)和數(shù)據(jù)中心領(lǐng)域的管理與應(yīng)用實踐經(jīng)驗,專注于數(shù)據(jù)中心服務(wù)能力成熟度研究、業(yè)務(wù)連續(xù)性管理在數(shù)據(jù)中心的應(yīng)用實踐以及綠色數(shù)據(jù)中心建設(shè)等領(lǐng)域。
(來源:《數(shù)據(jù)中心建設(shè)+》雜志)