桃園機場行李辨識系統最近發生了當機事件,服務中斷近36小時,只能透過人工搬運上萬件行李,修復時間一延再延,而上一次出入境管制的系統當機,也造成了很大的影響。其實不只桃園機場,很多企業或政府的IT危機都一再發生。

機場的解釋是,行李系統當機問題有兩層原因,第一個是系統老舊,用的是十年前的Digital Alpha 4000系統,內部存放資料的磁碟陣列損壞,一時之間沒有同款零件可以替換。再加上系統備份資料存放在老舊的磁帶系統中,回復和重建系統的速度很慢,維護廠商對系統不熟,得找原廠來解決,復原時間才一再延宕。

上面的說法都是系統老舊的問題,因為沒有預算,無法解決。問題是,如果系統已經是這種狀況,出問題的風險更高,尤其是機構中的重要系統,對於風險高的因素,難道不需要多花一些心力來預防和控制損失嗎?

一般來說,企業為了防範IT系統出問題,甚至是出了問題如何因應,都需要有相關的備援系統、或備援的人工作業等,而且這都需要擬定復原計畫。如果已經擬定了復原計畫,還需要定期演練,才能在可預期的最短時間內將狀況排除。

但是建立復原計畫之前,企業是否完成資訊資產的盤點?了解內部資產,不論是硬體、軟體甚至是資料,會發生哪些可能的風險?企業組織承擔這些風險的能力如何?要增加風險承擔能力有哪些應變方式等等。

有了這些盤點結果為基礎,再依據企業的營運目標、預期提供的服務水準等,才能規畫出合適的復原計畫,甚至要考慮到財務風險的責任轉移,例如購買服務不中斷的保險,來貼補危機發生時的財務損失。

先進國家有一些值得參考的作法,例如建置備援中心,包括類似規格的機房,通信設備,備份的資料等,一旦發生問題可以立刻將服務轉移到備援中心,或者是使用類似設備的單位,相互備援。

1992年時,美國芝加哥發生了大水災,這是在911事件之前,美國史上最嚴重的影響之一,有230棟建築斷電,至少十多個大型企業的主機泡水。但是這些企業事先做好防範,2家銀行只花了幾個小時就恢復正常運作,另外17家受到影響的金融、期貨和政府機構等也在一天半後透過備援中心重新提供服務。

這是災後復原計畫的第一階段:恢復運作。雖然這些成果是錢堆出來的,但若沒有事先擬定災後復原計畫,企業如何承擔可能的後果。最好的情況就是想辦法讓危機不會發生,或是不容易發生。如果危機無法控制,容易發生,那就該考慮如何控制損失?就像是桃園機場的老舊系統,若無法汰換,就應該想辦法預備好當機後的處置,而且要事先演練確保這些作法的確可行。

解決IT危機的方法其實很簡單,就像預防火災一樣,最好的辦法是屋內不要有火源,可是,廚房一定要用到火,那麼可改用防火建材來裝潢,採隔離式設計,萬一發生火災時,就能控制蔓延速度。而且還要設計逃生路線,預留逃生門,採購逃生梯或緩降機,最後是備妥消防設備器材,還要定期演習,提高臨場應變的熟悉度。

莫非定理提到,只要有可能出錯的事,就將會出錯(If anything can go wrong, it will)資訊災害也一樣,可能出現的IT危機一定會發生。口述⊙范錚強,整理⊙王宏仁

專欄作者

熱門新聞

Advertisement