Facebook周四(9/23)因自動化系統出現錯誤而中斷了2.5個小時,Facebook旋即公布細節並向使用者道歉,而這也是該站四年來最嚴重的一次故障。

根據外電報導,本周三就零星傳出使用者無法存取Facebook,周四影響的使用者更多,包括美國、歐洲及南美的使用者都一度無法存取Facebook。Facebook則坦承該站曾一度完全關閉。

Facebook說明,該站自動化系統的目的是檢查快取中無效的配置值,再透過永久儲存中的更新值取代,此一方式在快取出現臨時問題的時候運作良好,但永久儲存無效的時候則不然。Facebook周四改變了配置值被視為無效時的永久複製,代表每一客戶端看到無效值時都會嘗試去修補它,因而勢必要向叢集資料庫傳送請求,但每秒數十萬筆的請求很快就淹沒了叢集資料庫。

更嚴重的是,當客戶端向資料庫請求出現錯誤的時候,會刪除對應的快取值,這意味著就算原本的問題被解決,仍會繼續傳送請求,因此,只要資料庫未能滿足某些請求,就會造成更多的請求,而陷入資料庫無法修復的回饋迴圈。

Facebook指出,演變至此要停止該回饋迴圈只能終止所有連至資料庫叢集的流量,亦即是關閉該站,一直等到修復資料庫及排除故障原因時才漸次開放。目前Facebook已關閉嘗試更新配置值的系統,並著手研究新的配置系統設計。(編譯/陳曉莉)

熱門新聞

Advertisement