本期封面故事的主題──資訊系統大當機,是所有做IT的人最不想遇到的事情,只要一當機,所有矛頭全都指向IT單位,資訊人員不但疲於奔命,更免不了要被K得滿頭包。

在現今高度仰賴資訊系統來運作的社會,系統大當機不只衝擊企業的營運,甚至對於整個社會的運作都造成了極大的影響。火車訂票系統一當機,民眾就不能順利買到返鄉過節的車票;醫院的掛號系統一當機,急著就醫的民眾就無法看病;銀行的ATM系統一當機,民眾就沒得領錢;而2009年初發生的桃園機場出入境管制系統當機36個小時,因為出入境管制出現漏洞,竟讓8名被管制出境的人士與通緝犯趁機脫逃出境,更讓人們深刻體認到,系統當機甚至危及國家安全。

系統一當機,怎麼說資訊單位都是要倒大楣的。所以任何一個資訊單位只要手上擁有足夠的籌碼,一定會極盡所能的採取各種防範的措施,來避免當機導致的服務中斷,像是常見的系統備份、備援、異地備援這些能夠提高系統可用性的作法。甚至,只要能確保系統不當機,管他是科學還是迷思,任何可能有幫助的都做。放在機櫃上一包一包的乖乖,就足以見證資訊人員是多麼的害怕當機。而有些資訊人員到了國外旅遊,甚至還不忘帶回一些訴求保平安的御手護,將這些護身符掛在機房裏求平安。

然而,即使科學與信仰的方法都用上了,三不五時還是會有大當機的新聞。為什麼現今已經有那麼多訴求保護系統可用性的技術了,卻還是保護不了系統呢?從本期封面故事所報導的案例來看,其實你可以發現,系統大當機是一連串的連鎖反應,大多是因為多個連鎖錯誤所造成,而其中有些錯誤是早在當機發生前就已經埋下的,甚至也不是資訊單位種下的。

以今年2月5日傍晚發生的中信金控大當機為例,這個事件導致中國信託商銀的ATM系統與臺灣彩券的系統停擺,因而銀行的顧客無法在下班時間以ATM領款,等著要在開獎前夕試手氣的顧客也買不到彩券。而當機的原因,是中信金控當時在進行停電演練,結果因為不斷電系統故障無法正常運作,使得機房運作被迫停擺。

據了解,不斷電系統故障的原因是電池超過了使用年限而電力不足,然而為何超過了使用期限還不換,最大的原因可能是沒被排入預算。另一個問題是,為何要選在禮拜五上班日的下班尖峰時間進行停電演練。據了解是因為停電演習的過程中必須啟動柴油發電機,會產生很大的噪音與排放黑煙,而中信金控的機房位於其行政大樓,四周都是民宅,之前曾經在假日演練時產生太大的噪音與黑煙,而遭到鄰居抗議,因此只好選在周五下班人車吵雜的時段演練。

由此可見,這個當機事件的發生,以及其所造成的衝擊程度,是由多個因素所決定的,而其中一些錯誤在多年前早就已經種下了。機房的位置緊臨民宅,導致日後被迫選在上班日進行演練,把更換電池的預算給刪了,導致電池老舊無法發揮效果。這些造成大當機的錯誤,不全然都是資訊部門的錯,其實也跟老闆是有關係的。

本期封面故事我們選擇做大當機這個題目,並不是要在傷口上灑鹽,而是希望藉由過往的教訓,更加了解大當機的原因。大當機絕非單一錯誤,也不只是資訊部門的責任,在這個資訊化時代裏,老闆也必須知道自己的決策關乎系統的當機。(請見第22頁)

專欄作者

熱門新聞

Advertisement