周三AWS S3斷線原因是日常維護出包

示意圖，與新聞事件無關。

圖片來源:

AWS

AWS 雲端儲存服務S3台灣時間周三凌晨斷線數小時。AWS昨日說明，是資料中心日常維護過程意外引發，導致大半網路服務遭到癱瘓。

太平洋時間周二早上9:37（台灣時間周三凌晨0:37）一名S3團隊成員在執行維護業務過程中，要從負責S3計費的一部子系統移除少量幾台伺服器時，不料輸入指令發生錯誤，導致不小心移除過多伺服器，而這些不慎被移除的伺服器又剛好支援另兩個S3重要子系統。

一個子系統是索引子系統，管理該區域內所有S3物件的元資料及地點資訊，它是GET、LIST、PUT及DELETE等呼叫執行的關鍵。另一個配置子系統則管理物件新增物件的資源配置，以及管理索引子系統正常運作，它會在PUT呼叫時負責配置儲存資源。兩台子系統的部份移除容量過大，就會造成必須重開機。此時雖然AWS重開機，S3卻無法處理呼叫。

同此外，AWS US-EAST-1區域內其他依賴S3儲存的AWS服務，包括S3 console、Amazon Elastic Compute Cloud (EC2)、Amazon Elastic Block Store (EBS)及AWS Lambda也因為無法存取S3 API同時受到影響。

雖然S3斷線只持續了約2個半小時，但波及眾多大小網站包括Expedia、Quora、Slack、Trello、Imgur、IFTTT、Adobe及美國證管會無法運作。連提供網站斷線查詢的Isitdownrightnow服務，以及AWS自己的狀態頁也是架在AWS S3上，當時也很諷刺地都無法運作。

這次斷線原因出在系統大容量很輕易就被移除，而且系統重開階段回復速度花了太長時間。為了避免情況再度發生，AWS表示已修改S3的系統管理工具，未來會更以緩慢速度移除容量，並且加入停損機制，以防止容量低於運作所需的水準。其他運作工具也已導入同樣的安全檢查。此外，AWS也做了調整，加快回復速度，以便主要子系統未來能以更短時間完成回復。

熱門新聞