臺灣一家大型醫院因7月19日CrowdStrike大當機事件,開始評估對雙主機備援機制的主機,分別採用不同廠商的防護服務。

臺灣時間7月19日下午1點多,一個看似尋常的周五午後,卻因一場全球性的CrowdStrike當機事件變得不平靜,大大小小業務中斷了半小時至數小時之久。

臺灣災情雖沒歐美各地嚴重,但也有企業從這次危機中反思,要改變原有的IT策略。比如,針對雙主機備援架構(HA),「2臺主機要採用不同資安廠商產品,才能降低廠商發生問題、備援主機無法執行的風險,」一位大型醫院知情人士說。

階段1:3大系統受到影響

這個策略改變,來自於事件經驗。回到事發當下,下午1點剛過,這家醫院IT就接到急診部電話,告知急診系統無法運作。與許多企業一樣,IT認為是硬體故障,因此到機房檢查、重開主機。

但他們發現,就算重新開機,急診部的系統依然無法啟動。於是,他們按照典型的備援機制作法,先進行復原(Rollback),試圖回復到受影響前一版的虛擬機作業系統環境。

「這是第一階段。」知情人士表示,在回復作業系統環境的同時,IT團隊也同步檢查其他系統、了解影響範圍,得知醫院檢驗檢查系統和藥局藥袋列印系統也受到影響,導致一些尚未領藥的民眾需額外等待。由於不確定事件原因,他們也在第一時間向資安署通報,說明影響範圍。

階段2:雙管齊下恢復系統作業

事發半小時後,醫院收到臺灣資安廠商來信,說明當機問題可能來自CrowdStrike資安軟體,於是建議醫院IT,先進入OS安全模式、將CrowdStrike所在目錄重新命名,再重開主機,來讓醫療服務恢復運作。但知情人士表示,這個過程並非順利,尤其是重開、進入安全模式時,得嘗試多次才行。

好在事發1小時內,不少系統已陸續恢復運作,只有少數系統,如藥袋列印系統無法恢復,於是改以單機作業方式送交包藥機,來繼續包藥作業。至此,大部分系統已恢復作業,只有檢驗檢查系統較複雜,後來由委外廠商完成修復。

從大當機中學習到的2件事

回顧整起事件,醫院IT盤點,由於他們將CrowdStrike資安防護軟體安裝於部分主機,其餘則使用另一家廠商防護軟體,也因此,醫院最繁忙的門診系統並未受到影響,對醫院的整體衝擊並不大。

但知情人士點出:「我們還是從這次經驗中重新學習,」比如,這次事件源自CrowdStrike廠商發布流程不夠嚴謹,讓他們引以為戒,提醒自己未來在上架IT系統或更新版本時,更需按照標準程序進行。他解釋,一般軟體上線或更新,會經過3個環境試行,也就是開發測試環境、預上版環境(Stage)以及正式上線環境(Production)。CrowdStrike這起事件,讓醫院更警惕自己,未來上線新服務時更要遵循這些步驟,避免之後出現大麻煩。

另一個重要經驗則是「分散風險,不要將雞蛋放在同個籃子裡。」尤其是雙主機備援機制,該機制目的是,當原主機故障無法運行時,可切換由另一臺主機接手、繼續作業,而他們想做的是,對原主機和備援主機,分別採用不同廠商的防護服務。

如此一來,就算其中一家廠商服務出問題,也不會影響另一臺備援主機的運行,「這是我們正在思考的事,」該人士說道。這是他們從CrowdStrike事件中,學習到的2件事。

 相關報導  

熱門新聞

Advertisement