4年前,在舊金山Google Cloud年度產品大會上,遇到了Google儲存服務SRE部門總監Melissa Binde一場介紹SRE(Site Reliability Engineer,網站可靠性工程師)的演講。
開場的第一句話,立刻讓現場所有人都瞪大眼睛。「你若是Gmail維運人員,突然發現用戶能看到他人信件內容,怎麼辦?」她問,「正確答案是,立刻關掉這個10億人用的服務!」
Google重要的核心服務或內部服務,舉凡GCS雲端儲存、SQL服務或是Google內部的Bigtable等等,都由Melissa Binde團隊負責維運。
演講後,現場聽眾問她,真的有發生過,SRE人員必須緊急關閉Gmail服務的情況嗎?「沒有!但你得要有這樣的決心和準備。」她解釋,這就是她的SRE團隊每一個人的責任,哪怕是剛擔任SRE的實習生或新進人員,就算關掉Google.com網站,高層都會支持。
但是,7月23日,GPS大廠Garmin的IT團隊,就面臨了這個重大抉擇:該不該,馬上把資料中心內更多的主機關掉?
以航空產品起家的Garmin,核心技術是GPS,但產品涵蓋了穿戴產品、戶外用品、車用導航、航空產品或航海設備等,今年光是第二季營收就高達8.7億美元,歷年更累計賣出了2.2億個產品,光2019年就賣出1,900萬個,用戶遍及全球近百個國家。
若全面關掉主機,等於關閉了Garmin的全球服務,舉凡活動記錄、健康數據都無法上傳同步到網站,不只是智慧手錶,還有高爾夫球產品線、潛水產品平臺、軟體商店、兒童手環產品線、運動即時追蹤平臺都會停擺。
甚至連Garmin航空產品的關鍵核心,FlyGarmin飛航資料服務都會因此而中斷。許多私人飛機愛用Garmin飛航導航App,但現在,都無法再接收到即時飛航資料、最新天氣預報,這些飛機得找到替代方案,否則就無法訂定飛航計畫來起飛。關閉主機的決定,對Garmin全球用戶的影響,不亞於關閉Gmail對Google的影響。大家現在都知道Garmin的答案了。
就在7月23日那一天,Garmin伺服器遭遇到了突如其來的網路攻擊,加密了部分系統的檔案。一開始Garmin沒有說明原因,就突然宣布2天的大規模停機維修公告,iThome接獲讀者爆料,獨家率先披露了Garmin內部通知,因遭攻擊而關閉產線的消息。後續,多家美國媒體私下查證相關人員,才得知,Garmin遭到勒索軟體的檔案加密攻擊。而關閉更多主機,是為了避免災情擴大而採取的預防性措施。
這個預防性作為,影響所及,不只六大主要平臺服務都停擺了,就連全球各地客服中心、官方網站也都中斷服務了。一通客服電話、一則救助Email都無法回應。
勒索軟體最大的威嚇,不是對系統直接的傷害,或是龐大的贖金財務損失,更大的風險是不可知的資料損失風險。因為不知道,自己可能損失那些資料,就只能做最壞打算,所有的資料都可能損失,甚至會擴散、感染,從一臺電腦,蔓延到所有電腦,海外公司,全球據點的系統的資料都可能遭到加密,如果放任不管,讓勒索軟體暗中作亂,就會災情越滾越大,就像是一種雪崩式的資料威脅。可是,若斷然關閉主機,甚至是整座資料中心,就會讓服務全面停擺。任何企業遭遇勒索軟體威脅時,都得面臨這樣的兩難,Garmin資訊團隊也不例外。
事件發生後第三天,Garmin再次公告澄清用戶資料無損,但不再保證恢復時間,美東時間7月27日,就在第二季財報揭露之際,正式發新聞稿,坦言23日確實遭到網路攻擊而導致部分系統檔案被加密,進而影響了部分網站功能、客服支援、消費端應用和企業的內部通訊。
不過,Garmin在新聞稿中強調,用戶資料不受影響,系統也能恢復如常,甚至沒有財務損失(這暗示了沒有付贖金來換取解密金鑰)。7月底,Garmin的服務開始逐步恢復上線,企業級的航空類產品先復原,但他們坦言,還需要好幾天時間才能完全恢復正常運作。整體來推測,這波勒索軟體攻擊造成Garmin全球服務中斷了近一周的時間。
這起事件值得企業CIO們深思,自家服務是否已有一套妥善的高可用性設計,災難備援設計、資料備份策略、系統復原作法都經過驗證,若有需要真的實際可用。一旦,不幸面臨了同樣的抉擇,就能果斷地關閉資料中心,將雪崩式資料威脅的影響,減到最小。
專欄作者
熱門新聞
2024-11-25
2024-11-25
2024-11-15
2024-11-15
2024-11-26