CrowdStrike大當機的省思，臺灣大型醫院學到這2件事

臺灣一家大型醫院因7月19日CrowdStrike大當機事件，開始評估對雙主機備援機制的主機，分別採用不同廠商的防護服務。

臺灣時間7月19日下午1點多，一個看似尋常的周五午後，卻因一場全球性的CrowdStrike當機事件變得不平靜，大大小小業務中斷了半小時至數小時之久。

臺灣災情雖沒歐美各地嚴重，但也有企業從這次危機中反思，要改變原有的IT策略。比如，針對雙主機備援架構（HA），「2臺主機要採用不同資安廠商產品，才能降低廠商發生問題、備援主機無法執行的風險，」一位大型醫院知情人士說。

階段1：3大系統受到影響

這個策略改變，來自於事件經驗。回到事發當下，下午1點剛過，這家醫院IT就接到急診部電話，告知急診系統無法運作。與許多企業一樣，IT認為是硬體故障，因此到機房檢查、重開主機。

但他們發現，就算重新開機，急診部的系統依然無法啟動。於是，他們按照典型的備援機制作法，先進行復原（Rollback），試圖回復到受影響前一版的虛擬機作業系統環境。

「這是第一階段。」知情人士表示，在回復作業系統環境的同時，IT團隊也同步檢查其他系統、了解影響範圍，得知醫院檢驗檢查系統和藥局藥袋列印系統也受到影響，導致一些尚未領藥的民眾需額外等待。由於不確定事件原因，他們也在第一時間向資安署通報，說明影響範圍。

階段2：雙管齊下恢復系統作業

事發半小時後，醫院收到臺灣資安廠商來信，說明當機問題可能來自CrowdStrike資安軟體，於是建議醫院IT，先進入OS安全模式、將CrowdStrike所在目錄重新命名，再重開主機，來讓醫療服務恢復運作。但知情人士表示，這個過程並非順利，尤其是重開、進入安全模式時，得嘗試多次才行。

好在事發1小時內，不少系統已陸續恢復運作，只有少數系統，如藥袋列印系統無法恢復，於是改以單機作業方式送交包藥機，來繼續包藥作業。至此，大部分系統已恢復作業，只有檢驗檢查系統較複雜，後來由委外廠商完成修復。

從大當機中學習到的2件事

回顧整起事件，醫院IT盤點，由於他們將CrowdStrike資安防護軟體安裝於部分主機，其餘則使用另一家廠商防護軟體，也因此，醫院最繁忙的門診系統並未受到影響，對醫院的整體衝擊並不大。

但知情人士點出：「我們還是從這次經驗中重新學習，」比如，這次事件源自CrowdStrike廠商發布流程不夠嚴謹，讓他們引以為戒，提醒自己未來在上架IT系統或更新版本時，更需按照標準程序進行。他解釋，一般軟體上線或更新，會經過3個環境試行，也就是開發測試環境、預上版環境（Stage）以及正式上線環境（Production）。CrowdStrike這起事件，讓醫院更警惕自己，未來上線新服務時更要遵循這些步驟，避免之後出現大麻煩。

另一個重要經驗則是「分散風險，不要將雞蛋放在同個籃子裡。」尤其是雙主機備援機制，該機制目的是，當原主機故障無法運行時，可切換由另一臺主機接手、繼續作業，而他們想做的是，對原主機和備援主機，分別採用不同廠商的防護服務。

如此一來，就算其中一家廠商服務出問題，也不會影響另一臺備援主機的運行，「這是我們正在思考的事，」該人士說道。這是他們從CrowdStrike事件中，學習到的2件事。

相關報導

熱門新聞