“我當(dāng)時(shí)的第一反應(yīng)是不需要有任何擔(dān)心,”Chakravorty表示,“在我們的工作中,一臺(tái)服務(wù)器宕機(jī)并不是什么大事,還不至于把我嚇得從座位上掉下來(lái)。我只要讓我的硬件廠商——HP來(lái)搞定就可以了。如果是軟件問(wèn)題,那么軟件廠商的人來(lái)解決它。我想一定可以找到相關(guān)的人來(lái)負(fù)責(zé)它?!彼貞浀健?/DIV>
更糟糕的是這次故障發(fā)生得太不是時(shí)候了?!拔矣浀卯?dāng)時(shí)有一場(chǎng)英格蘭對(duì)印度的板球比賽正在進(jìn)行,當(dāng)時(shí)正處于半場(chǎng)休息時(shí)間。”Chakravorty這時(shí)意識(shí)到了事態(tài)的嚴(yán)重性,他從電話中得知:他的屬下所知道的全部故障信息就是,服務(wù)器機(jī)房中的每一個(gè)機(jī)架都處于帶電狀態(tài)。“那時(shí)候我開(kāi)始擔(dān)心,工程師無(wú)法接觸帶電狀態(tài)的機(jī)架,這意味著沒(méi)有人可以估計(jì)破壞的程度?!?/DIV>
這種情況符合他對(duì)危機(jī)的兩個(gè)定義之一。“危機(jī)之一是當(dāng)業(yè)務(wù)被中斷的時(shí)候,你卻不能清楚地了解到需要多少時(shí)間來(lái)修復(fù)?!辈恍业氖牵@次故障也符合他對(duì)危機(jī)的第二個(gè)定義。“我對(duì)危機(jī)的另一個(gè)定義是,當(dāng)企業(yè)必須要去做某件事情的時(shí)候,卻因?yàn)镮T故障或系統(tǒng)失靈而無(wú)法做。”
公司業(yè)務(wù)對(duì)來(lái)自IT系統(tǒng)支持的需求萬(wàn)分緊急。當(dāng)時(shí)正處于半場(chǎng)報(bào)道時(shí)間,各方面的人都在等待系統(tǒng)的恢復(fù)。“管理層都快瘋了,而我卻不能告訴他們我什么時(shí)候能讓系統(tǒng)恢復(fù)正常,因?yàn)槲也恢绬?wèn)題所在?!?
與此同時(shí),無(wú)情的電老虎依然在“烘烤”著他的系統(tǒng)。“最先是我的SAP服務(wù)器,然后是郵件服務(wù)器、域名服務(wù)器、內(nèi)網(wǎng)服務(wù)器和網(wǎng)站服務(wù)器,最后所有25臺(tái)服務(wù)器全部發(fā)生故障。”他表示。
后來(lái)電力工程師發(fā)現(xiàn),需要4到5個(gè)小時(shí)才能停止電老虎繼續(xù)毀壞服務(wù)器。“但是,當(dāng)他們的任務(wù)完成后,我的問(wèn)題卻剛剛才開(kāi)始。SAP服務(wù)器被摧毀了,而我的隊(duì)伍卻對(duì)SAP一無(wú)所知。”他解釋道。IT團(tuán)隊(duì)不得不開(kāi)始聯(lián)系HP公司,由其工程師遠(yuǎn)程通過(guò)電話來(lái)指導(dǎo)他們完成對(duì)百事可樂(lè)SAP系統(tǒng)的恢復(fù)。
整個(gè)恢復(fù)過(guò)程大約花費(fèi)了9個(gè)小時(shí),公司的18個(gè)頂級(jí)系統(tǒng)都在等待這個(gè)系統(tǒng)。由這個(gè)事件所帶來(lái)的損失主要來(lái)自于兩方面:延遲了報(bào)道和浪費(fèi)了時(shí)間;而且導(dǎo)致百事可樂(lè)銷(xiāo)售業(yè)務(wù)的中斷,因?yàn)橄到y(tǒng)無(wú)法打印發(fā)票。
“那個(gè)時(shí)候我沒(méi)有預(yù)見(jiàn)到這種情況的發(fā)生。但是現(xiàn)在我可以了,”他自我挖苦地表示。“可以肯定的是,我們從中學(xué)習(xí)了很多。經(jīng)歷過(guò)那次事件,我了解到災(zāi)難恢復(fù)的重要性,而且我們也創(chuàng)建了危機(jī)處理指南?!?/DIV>
如果現(xiàn)在類似的情況再次發(fā)生在Chakravorty身上,他可以大大減少破壞的程度。因?yàn)檫@次經(jīng)歷擦亮了他的眼睛。
點(diǎn)評(píng):從Chakravorty的經(jīng)歷來(lái)看,很多企業(yè)的CIO都是真正經(jīng)歷了IT危機(jī)后,才對(duì)制定合理的危機(jī)響應(yīng)步驟有了真正的重視,可謂“不經(jīng)一事不長(zhǎng)一智”,不過(guò)這樣付出的學(xué)費(fèi)可能會(huì)比較高昂。
IT168