在7月下旬資安廠商CrowdStrike的一次EDR端點安全產品更新,竟導致全球Windows大當機情形,不只是臺灣傳出災情,全球許多關鍵基礎服務受影響的狀況更是嚴重,究竟這次事件的衝擊有多大?有那些問題值得我們省思與檢討?成為這一個多月以來的IT領域焦點。
因為,這次事件不僅造成大規模企業員工的電腦無法使用,更是衝擊許多關鍵民生服務的運作。
臺灣不只醫院、航空業受影響,還有高科技業、金融業與資訊服務業
這次CrowdStrike更新事故,發生在臺灣時間19日中午過後,尤其是中午用餐過後的下午1點半後,陸續傳出有使用CrowdStrike產品的企業員工電腦,出現Windows當機且重新啟動無效的情形。
雖然臺灣災情看似不大,有不少在臺的國際科技公司員工電腦受到波及,多數都可以在短時間內復原,像是虛驚一場,但仍影響到一些醫院、航空的運作,只能暫時以人工作業方式來因應。
我們後續詢問多家臺灣企業資安長、資服業者,得知有多家國內高科技產業受影響,甚至有資服業者花了3天,才完成3千多臺個人電腦的復原工作。
金管會也公布這次事件的衝擊狀況,有13家受影響,其中保險業受影響的個人電腦、伺服器均達1千多臺之多。
全球性IT故障問題,更是衝擊多項關鍵民生服務
全球災情更是驚人!預估有850萬臺Windows裝置受影響,雖然這僅佔全球Windows裝置數量的百分之一,但是,許多提供民生服務的IT系統都受影響,可見其嚴重性,災情遍及航空、金融、零售、醫療、鐵路運輸、媒體、公部門及911服務等眾多產業。
主要因為,全球不少大型企業採用CrowdStrike產品,根據該公司最新財報的數據顯示,其企業客戶總數將近24,000家,而且其中包括有近60%是《財富》全球500強的公司,再加上這次CrowdStrike更新,也影響微軟Azure公有雲用戶,使得災情更趨顯著。
例如,在澳洲、紐西蘭當地19日上午,許多民眾於網路上反應,當地多家金融系統服務無法使用,包括金融App無法開啟、ATM無法使用,以及在零售商家無法使用信用卡支付等。
不只澳洲,全球還有多國金融業與零售業的服務,同樣受到影響,有些地方的金融服務暫時無法使用,有些店家無法結帳,涵蓋支付系統、POS機或自助結帳機,導致商家暫時關門休息,或是張貼只能現金支付的標語。
例如,日本環球影城內餐廳與紀念品商店無法結帳而暫停營業,還有歐洲多國連鎖超市受影響,像是英國Waitrose只接受現金付款,德國tegut關閉部分門市,挪威連鎖藥局Apotek1暫停服務。
這起事故對航空業的影響更是劇烈,多國機場都傳出狀況,導致數萬名旅客滯留,迫使許多人取消或延遲行程。不過,雖然相關新聞不斷,卻缺乏具體影響飛航程度的數據,直到事隔一個月之後,我們才找到2份關鍵統計報告。
首先,是航空數據分析公司Cirium提供的資料,他們8月發布的航班準時表現月度報告,揭露整體概況,當中指出這起IT故障造成的影響,很明顯地反映在7月整體航班的取消數量,以北美、歐洲與亞太地區影響較嚴重,北美這個月的航班取消數量達23,393個,比起6月的11,806個,明顯暴增98%,以歐洲而言,取消航班的數量也增加34%,至於拉丁美洲、中東與非洲地區的影響,則相當小。
在航空公司方面,以達美航空與其合作夥伴的航班取消數量最多,有近6,500個航班因取消而無法起飛,佔全球總數的三分之二。
第二份關鍵資訊,源於達美航空執行長Ed Bastian,他在7月31日接受CNBC採訪指出,在當機事故的5天內已造成5億美元損失,並提及有4萬臺Windows伺服器必須手動重啟,包含追蹤機組人員的系統。
有了這些狀況的揭露,我們更可以看出,全球大當機事故帶來的損失與影響的程度。
在醫療服務與消防救護上,這次事件也衝擊全球一些城市這方面的服務,像是在歐洲、美洲多國都有醫院發布公告,說明看診與手術需暫停、延後或轉移,原因包括病例系統無法存取,或是行政、掛號系統受影響。例如,英國國民健康服務NHS就在當日發布公告,指出當地預約及病患記錄系統EMIS故障,導致基層醫療體系第一線醫生(General Practitioner)的運作全受影響。
特別的是,美國有多個州表示,911緊急電話癱瘓,出現無法撥打的情形。
另外,還有一些國家的鐵路運輸、新聞媒體業也受波及,雖然影響程度不及金融零售與航空,但同樣難以忽視。
整體而言,雖然大部分服務中斷都能在1至3天內恢復正常運作,但這些災情的發生,間接暴露可能造成大規模全球IT故障的軟肋,以及企業因應這類資安事故的能力不足的困境,接下來,我們將深入了解企業在這起事故下的狀況,以及帶給我們的反思。
CrowdStrike更新引發0719全球大當機歷程
12:09 (4時09分 UTC)
CrowdStrike發布Windows感測器的配置更新Channel File 291。此時大家都還不知道,這次資安產品更新將會引發一場全球性的IT故障災情。CrowdStrike隔日才說明引發事故的時間細節。
13:00
出現災情,但多數用戶都不清楚原因。根據我們事後了解,臺灣有醫院1點發現部分系統無法運作,猜測硬體故障,採備援機制復原。我們1點38分也獲知狀況,看到國外Reddit社群1點正在討論CrowdStrike引發當機。
13:27
災情已然發酵。根據CrowdStrike隔日說明19日事發一小時,已修復有問題的更新,但此前的更新已導致災情。
13:30
資安界指出CrowdStrike釀災。此時我們看到臺灣資安Line群組討論當機,且多名網友立即就指出問題出在CS,也就是CrowdStrike。
網傳暫時解法。在安全模式更改這套產品的資料夾名稱,但有人認為此舉將失去防護並不妥當。
13:43
只對用戶證實事故惹議。此時CrowdStrike透過公司網站知識庫說明Falcon Sensor相關的電腦當機事故,但此公告須以用戶身分登入才能瀏覽,外界只能經由用戶轉貼內容,才得知廠商坦承此事。
14:30
網路與大眾媒體大量散播官方最新緩解方法。由於災情廣泛,大量好心網友紛紛分享官方公告的緩解步驟,處理方式並不複雜,主要將檔名為C-00000291開頭的.SYS檔都刪除,就能維持該EDR運作且正常開機。
圖片來源/CrowdStrike
14:30 後
全球媒體報導微軟系統當機,CrowdStrike此時仍未對外說明。醫院、航空等當機災情陸續曝光,由於稍早美國一座Azure服務中斷,加上CrowdStrike未公開說明,造成大眾只知微軟系統出事。
受影響企業在慌亂中忙於復原。有企業很晚得知官方解法,有企業因復原裝置數量龐大需要時間,有企業因電腦啟用全硬碟加密功能BitLocker,復原過程卡在找尋金鑰。
17:45
事發已將近6小時,CrowdStrike執行長終於對外發聲。George Kurtz在社群平臺X與官方部落格發文,指出更新事故只影響Windows平臺,強調不是資安事件或網路攻擊,公司全面動員協助客戶,提供支援網頁連結並持續更新消息。
18:00
微軟Azure Status公告其服務也受影響。微軟指出Azure平臺在臺灣時間中午12點09分同樣受此事件影響,主要是Azure中安裝CrowdStrike Falcon代理程式的VM用戶。微軟也特別說明,這次事件與已解決的美國中部Azure資料中心中斷事件無關。
21:09 (美東早上9時09分)
CrowdStrike執行長上電視公開道歉。George Kurtz接受美國CNBC新聞電視臺採訪,對其客戶、旅客,以及所有受這起事件影響的人道歉。
圖片來源/翻攝自CNBC
資料來源:iThome整理,2024年9月
熱門新聞
2024-10-05
2024-10-04
2024-10-02
2024-10-03
2024-09-29
2024-10-01
2024-10-01