今年一月陸續發生兩起與硬碟有關的IT事件,一則是一月初桃園機場的境管系統大當機,原因是主系統的硬碟老舊故障,而備援系統的硬碟竟然也因為老舊故障,使得出入境管制系統停機36個小時,期間出入境查核作業改由人工查驗,因而讓8名通緝犯成功脫逃出境。緊接著在一月下旬,又發生希捷硬碟韌體有瑕疵的事件。希捷在1月19日正式坦承旗下30款硬碟的韌體有瑕疵,有可能在系統重開機後,BIOS會找不到硬碟。

截至目前為止,希捷硬碟韌體瑕疵的問題尚未對企業造成立即的影響。我們採訪多家儲存設備廠商,其中外商公司表示,他們的磁碟陣列所使用的硬碟,其中的韌體都經過改寫了,會因為此事件而發生問題的可能性較低。大多數本土磁碟陣列廠商則不會改寫硬碟韌體,不過,多數本土磁碟陣列廠商都表示尚未接獲客戶回報有發生問題。

磁碟陣列廠商表示,據希捷的說法,這些有韌體瑕疵的硬碟,若當成是系統碟,則發生問題的可能性較高。若目前磁碟陣列仍運作正常,尚未發生問題,廠商建議使用者暫緩更新韌體,畢竟韌體更新仍有一定的風險。

對使用者而言,一聽到硬碟的韌體有瑕疵,當然想要更新韌體,不然心裏總覺得毛毛的,不知哪一天硬碟的資料會救不回來。我一聽到這個消息後,也是趕緊打開電腦檢查硬碟型號,在發現有一臺Barracuda 7200.11硬碟後,當下立即上網下載韌體。但是,希捷竟然沒有在下載專區提供連結,好不容易在知識庫中摸索了一陣子才找到下載韌體的網址。

韌體到手後,還得先把硬碟資料備份,免得韌體更新失敗。這時候檢查一下這臺硬碟的容量,竟然是容量500GB,而且資料量已經超過400GB,這下就得先找到另一臺500GB的硬碟來備份資料才行。

光是一臺500GB硬碟要更新韌體,看起來都這麼麻煩了,更別提是磁碟陣列了。如果一櫃磁碟陣列不幸都安裝了有問題的硬碟,那麼令人頭痛的狀況就來了。首先,你得先備份資料,想辦法找到其他夠大的儲存空間來備份,並且等待備份完成;接著,拆下1臺硬碟,把這臺硬碟接到電腦上更新韌體,完成後再把硬碟裝回磁碟陣列,接著,要等待硬碟陣列重建RAID組態,這可得等上好一段時間,等到陣列重組完成後,再拆下第二臺硬碟,依照相同的程序逐一更新硬碟的韌體。可以想見,這將是一個曠日費時的過程。

對企業而言,硬碟韌體甚至是比處理器更新還要棘手,因為硬碟的數量比起處理器來得多,而且資料備份與RAID組態重建都要耗費大量時間,對某些需要處理數百臺問題硬碟的人而言,這簡直是個夢靨。

硬碟是脆弱的,這大家都很清楚,因而付予RAID機制來預防硬碟故障。但也不能以為有RAID保護就沒事了,還必須注意硬碟的來源、使用狀況、健康狀態,不然縱使有RAID保護,但要更新硬碟也是一件棘手的事。此外,有許多例子都是因為管理人員擔心線上更換硬碟可能會有問題,仗著有RAID 5保護可允許1臺硬碟故障,而沒有立刻更換硬碟,結果不幸第二臺硬碟也在不久之後故障了,這時候連RAID 5也保護不了。

這兩個事件發生後,讓大家有個機會再次省思資料的備份保護與硬碟管理,請見本期封面故事針對這兩起事件的分析報導。

專欄作者

熱門新聞

Advertisement