中國(guó)儲(chǔ)能網(wǎng)訊:如果想提高數(shù)據(jù)中心的正常運(yùn)行時(shí)間的話,就需要識(shí)別并減少最常見(jiàn)的故障源。這可能具有一定的挑戰(zhàn)性,因?yàn)閷?dǎo)致數(shù)據(jù)中心宕機(jī)的原因有很多,通常都不可能一下子解決所有的問(wèn)題。數(shù)據(jù)中心運(yùn)營(yíng)商需要決定優(yōu)先處理哪些正常運(yùn)行時(shí)間的威脅。
美國(guó)正常運(yùn)行時(shí)間研究所(Uptime Institute)的一份新報(bào)告在這方面提供了寶貴的指導(dǎo)。該報(bào)告詳細(xì)介紹了截至 2024 年最常見(jiàn)的數(shù)據(jù)中心正常運(yùn)行時(shí)間挑戰(zhàn),并對(duì)于一些會(huì)觸發(fā)數(shù)據(jù)中心中斷的事件揭示了一些令人驚訝的發(fā)現(xiàn)。
數(shù)據(jù)中心正常運(yùn)行時(shí)間的最大威脅
有些人可能會(huì)認(rèn)為,造成數(shù)據(jù)中心宕機(jī)的最常見(jiàn)原因是網(wǎng)絡(luò)攻擊或極端天氣之類的風(fēng)險(xiǎn),每當(dāng)這一類風(fēng)險(xiǎn)發(fā)生時(shí)往往會(huì)受到媒體的大量關(guān)注。
但實(shí)際上,從數(shù)據(jù)中心正常運(yùn)行時(shí)間的角度來(lái)看,這些風(fēng)險(xiǎn)幾乎可以忽略不計(jì)。導(dǎo)致大多數(shù)數(shù)據(jù)中心故障的核心問(wèn)題可以分為以下幾類。
1、物理系統(tǒng)故障
電源問(wèn)題是數(shù)據(jù)中心最常見(jiàn)故障的原因。根據(jù) Uptime Institute 的報(bào)告,電源問(wèn)題占所有數(shù)據(jù)中心故障的 52%。
另有 19% 的故障源于數(shù)據(jù)中心的冷卻問(wèn)題,Uptime Institute 將其與電力系統(tǒng)問(wèn)題分開(kāi)歸類。
這意味著數(shù)據(jù)中心最大的正常運(yùn)行時(shí)間風(fēng)險(xiǎn)明顯是物理系統(tǒng)故障。數(shù)據(jù)中心運(yùn)營(yíng)商希望提高正常運(yùn)行時(shí)間的話,就應(yīng)該在冗余能源供應(yīng)或暖通空調(diào)系統(tǒng)等解決方案方面進(jìn)行投資。
2、第三方提供商的挑戰(zhàn)
數(shù)據(jù)中心正常運(yùn)行時(shí)間面臨的第二個(gè)最常見(jiàn)威脅是 Uptime Institute 稱之為有關(guān)第三方提供商的問(wèn)題。這個(gè)問(wèn)題指的是,企業(yè)通過(guò)外包協(xié)議或類似安排與服務(wù)提供商簽訂合同管理數(shù)據(jù)中心,而服務(wù)提供商導(dǎo)致了故障的發(fā)生。
至于轉(zhuǎn)為數(shù)據(jù)中心內(nèi)部運(yùn)營(yíng)能否能緩解這一問(wèn)題是很難說(shuō)的。按理說(shuō),數(shù)據(jù)中心外包公司專門(mén)從事數(shù)據(jù)中心的日常運(yùn)營(yíng),其正常運(yùn)行率可能比那些不以數(shù)據(jù)中心管理為重點(diǎn)的企業(yè)要高。但每個(gè)人在這方面的體驗(yàn)可能會(huì)有所不同,這取決于企業(yè)內(nèi)部的員工是否擅長(zhǎng)管理數(shù)據(jù)中心。
無(wú)論如何,這個(gè)數(shù)據(jù)點(diǎn)提醒我們,如果選擇第三方提供商來(lái)管理數(shù)據(jù)中心的運(yùn)營(yíng),那么就應(yīng)該詢問(wèn)第三方提供商的正常運(yùn)行時(shí)間記錄,以確保提供商不會(huì)成為數(shù)據(jù)中心可用性戰(zhàn)略中最薄弱的環(huán)節(jié)。
3、IT 設(shè)備故障
IT 系統(tǒng)硬件和軟件故障是造成數(shù)據(jù)中心停機(jī)的第三大常見(jiàn)原因,這并不奇怪,因?yàn)樽詮臄?shù)字時(shí)代開(kāi)始以來(lái),企業(yè)就一直在為服務(wù)器的崩潰而苦惱。
沒(méi)有靈丹妙藥可以降低這種風(fēng)險(xiǎn),但還是有一些屢試不爽的策略,例如更多地在更好的監(jiān)控和可觀察性解決方案上投資,創(chuàng)建備份 IT 環(huán)境并配備自動(dòng)故障轉(zhuǎn)移控制,以便在服務(wù)器崩潰時(shí),其工作負(fù)載可以立即轉(zhuǎn)移到另一臺(tái)服務(wù)器上。
4、網(wǎng)絡(luò)故障
網(wǎng)絡(luò)故障與 IT 設(shè)備故障類似:二者導(dǎo)致數(shù)據(jù)中心宕機(jī)的比率幾乎完全相同,也是企業(yè)長(zhǎng)期以來(lái)一直面臨的一類挑戰(zhàn)。
與增加 IT 設(shè)備正常運(yùn)行時(shí)間一樣,提升數(shù)據(jù)中心網(wǎng)絡(luò)可靠性的策略包括更好地監(jiān)控網(wǎng)絡(luò)和在網(wǎng)絡(luò)中構(gòu)建冗余,使得數(shù)據(jù)包可以在網(wǎng)絡(luò)部分出現(xiàn)故障時(shí)選擇替代路徑。
更廣泛地使用軟件定義網(wǎng)絡(luò)也可以提高網(wǎng)絡(luò)可靠性,使用軟件控制而不是物理網(wǎng)絡(luò)設(shè)備可以更容易識(shí)別和緩解故障。
其他數(shù)據(jù)中心正常運(yùn)行時(shí)間挑戰(zhàn)
火災(zāi)和信息安全事件也出現(xiàn)在Uptime Institute的數(shù)據(jù)中心停機(jī)原因排行榜上,但也只是勉強(qiáng)上榜,分別僅占所有停機(jī)事件的 3% 和 1%。
當(dāng)然,這并不是說(shuō)不應(yīng)該投資防火措施和網(wǎng)絡(luò)安全保護(hù)措施。但在考慮要優(yōu)先哪些類型的數(shù)據(jù)中心正常運(yùn)行時(shí)間風(fēng)險(xiǎn)時(shí),數(shù)據(jù)顯示這兩項(xiàng)不應(yīng)該是清單上的唯一行動(dòng)。