圖片來源: 

iThome

前面談到了桃園機場和希捷(Seagate)硬碟韌體出錯的事件,這些事件喚醒了不少人對於硬碟健康度的重視。我們可以發現,即便在企業的儲存環境中,透過RAID機制確保硬碟可以有部分容錯的功能,硬碟的健康程度掌握,還是一個重要的課題。因為當惡運來臨時,同一個RAID裡壞掉兩個硬碟,這種一般認為可能性微乎極微的事情,就是真的可能會發生。

此外,如果像遇到希捷這次產品本身就有瑕疵的事件發生,如果企業沒有辦法立刻停機更換韌體,那麼唯有切實掌握硬碟在磁碟陣列中運作的狀況,才能防範於未然,在硬碟失效之前先看到其可能性,然後進行更換。否則整批硬碟在相仿的時間內壞掉,事情就難以解決了。接下來我們將整理系統商與一些使用者的經驗,提供幾個可以協助企業針對硬碟可能損壞這件事情,幾個未雨綢繆的方法,讓各位讀者參考。

方法1:保固期到了,就考慮更換硬碟

無論你多麼信任硬碟的壽命,或是多麼相信某個廠牌硬碟的耐用度,但硬碟畢竟是電子產品,有其壽命的限制。硬碟廠商提供的MBTF(平均故障率)也只是理論值,並不能確保每一個硬碟都能使用到該年限。因此,許多人都會建議,當硬碟過了保固期,就準備要考慮更換。

普安科技技術處技術支援部資深副理林振誠表示,一般都會建議使用者,在硬碟的保固期到了的時候,就可以考慮更換。他指出,很多企業使用者會有「用到壞再換」的觀念,但是這等於是走在鋼索上,增加風險。他指出,一般來說企業等級的硬碟,保固期大概3年左右,廠商建議的保固期間到了,往往也是硬碟損壞狀況會開始增加的時候,多撐下去使用時間也不見得會多出太多。

林振誠以他親身遇到過的狀況為例,有遇過客戶甚至在RAID5架構下,已經有1顆硬碟壞了,還不願意更換硬碟的情況。「這其實是增加儲存系統故障的可能性,因為RAID架構雖然能夠讓系統在1顆硬碟損壞的狀況下繼續運作,但在這種情況下,任何系統存取、運作上所發生的小錯誤,都很有可能會導致連鎖反應,讓整個系統停擺。」林振誠說。

許多儲存系統廠商,也會提供定期更換硬碟的服務,但若沒有付錢使用此類服務的企業,事實上也可以參考這些廠商的做法,在保固期過了之後,就可以開始考慮逐步更換這些硬碟,以確保儲存系統不會因為硬碟損壞而造成企業營運上的損失。

定期更換硬碟的做法雖然不能說百分之百避免問題,但至少能夠減少企業遇到RAID架構下硬碟同時壞掉兩臺的這種倒楣事。舉例來說,萬芳醫院就遇過類似的事件,萬芳醫院醫療資訊副院長許明暉過去接受訪問時就表示,該院是使用RAID 5的磁碟陣列架構建置醫療資料庫,一般來說,使用該架構的資料庫,除非2顆硬碟同時壞掉,否則資料是不會遺失的,而即使1顆硬碟壞掉,由於萬芳醫院有建置備援硬碟,資料將能夠即時的由壞掉的硬碟傳輸到備援硬碟上。「但是平常會想不可能發生那麼倒楣的事情,事實上就發生了。」許明暉說。萬芳醫院就曾經在一顆硬碟壞掉時,當資料還在備份到備援硬碟的時候,同一陣列的硬碟又壞了一顆,導致整個陣列的資料都遺失。

這也可以從桃園機場大當機的例子中看到慘痛的教訓,如果系統老舊的原因屬實,可以推測該事件中的系統,硬碟沒有定期更換的可能性很高。事實上,許多規模較小的企業,在購買了磁碟陣列之後,就完全沒有顧慮到硬碟的使用年限問題,都抱持著「用到壞再換」的心態,而這很有可能就是為自己的儲存系統埋下一顆未爆彈。這也是為什麼,很多提供專業服務的系統廠商,會在年限到了時候就建議企業更換硬碟,如此才能確保儲存系統運作的正常。

方法2:利用工具掌握硬碟健康狀況

除了定期更換硬碟之外,利用一些工具隨時掌握與監測硬碟的健康狀況,也是企業不容忽視的一個環節。如此一來,才能夠在硬碟發生問題的時候迅速反應。

舉例來說,臺中榮總資訊室主任楊晴雯表示,該院的資訊人員會定期透過磁碟陣列所附的狀態工具,檢查硬碟的效能以及健康狀況,如此一來在硬碟發生異常時,就能早期發現。

事實上,許多廠商也建議使用者必須做一些基礎的硬碟健康狀況監測,以達到防範於未然的效果。林振誠就指出,一般來說,企業可以透過開啟S.M.A.R.T.(Self - Monitoring, Analysis and Reporting Technology,硬碟自我監控)功能,透過S.M.A.R.T.偵測硬碟內部溫度、碟片轉速、及磁頭運作高度等資訊的收集與設定,在硬碟發生問題前就先自動發出警告,減少突然故障的可能性。

不過,林振誠也表示,開啟S.M.A.R.T.功能,會稍微影響到效能,這也使得很多企業的儲存系統維護人員,不見得願意開啟此類功能。但S.M.A.R.T.功能是目前硬碟通用的標準,可以說是企業掌握硬碟健康狀況的最基本做法。企業在經過考量之後,可以考慮將此功能開啟,確保儲存系統的可用性。

此外,企業還可以透過磁碟陣列所附的工具,來監測硬碟的反應速度與效能。林振誠表示,很多時候硬碟稍有損壞或是老化的時候,由於未達到S.M.A.R.T.警告的標準,企業不見得能透過S.M.A.R.T.機制發現異狀。但事實上該硬碟卻已經效能大幅衰退,拖累了磁碟陣列的運作速度。這個時候,磁碟陣列所附的工具,往往能夠把這些害群之馬揪出來,讓企業掌握整個磁碟陣列內部所有硬碟的效能,從而更換已經有問題的硬碟。

這些檢測可以說是十分基本的做法,但卻不是每個企業都會注重。對於企業來說,透過這些原本就有的工具,就能掌握硬碟運作的狀況。這麼做還有一個好處,就是類似希捷硬碟韌體出錯這種事情發生的時候,企業即便無法立即進行所有硬碟的韌體更新,也能透過掌握健康狀況,隨時追蹤硬碟的運作情形,避免因為硬碟損壞而殺個IT人員措手不及的狀況發生,也算是多一道能夠預防的防線。

總而言之,掌握硬碟的健康狀況,對於企業的儲存系統,可以說是「雖小道,但必有可觀之處」,但企業往往會忽略這些細部的作業。如果能夠落實做到這一點,IT人員才能夠在硬碟真正發生問題時,快速的反應。自然也就能夠減少因為硬碟損壞而造成的資料遺失或系統停擺的風險。

方法3:同系統中選用不同時間出廠的硬碟

由於硬碟使用有一定的年限,所以部分企業已經開始注意到選用不同時間出貨的硬碟安裝在同一系統中,減少硬碟同時損壞的可能性。

勝德國際研發資訊部經理王鈞立表示,看到桃園機場的例子後,該公司現在會記錄每個定期更換的硬碟出廠時間,盡量讓同一儲存系統內,使用不同出廠時間的硬碟。王鈞立說:「現在會要求將更換時間、出廠時間記錄在工作日誌上,掌握每個硬碟的使用年限與出廠狀況,減少因為都使用同一時間出廠的硬碟,而導致硬碟壽命相近,同時損壞的情況出現。」

雖然也有人提出可以使用不同廠牌的硬碟這種看法,但是由於實際在磁碟陣列應用上,同一系統使用不同廠牌的硬碟,可能會有不穩定或是無法成功切割成相同RAID的問題,所以多數使用者還是抱持著與王鈞立相近的看法。例如從事資料回復的凌威科技董事長兼總經理江智雄就建議,企業可以在同一個磁碟陣列中,安裝不同廠牌、不同批次或容量不同的硬碟,藉此分散同一時間硬碟故障的風險。

江智雄表示,從他的經驗來看,許多企業因為擔心線上更換磁碟陣列的硬碟會影響系統運作,因而即使RAID架構下,已有1臺硬碟故障,也沒有立即更換,而想要等到假日或歲修時再關機、更換硬碟,然而,他所看到的狀況都是,在還沒等到假日或歲修之前,又壞了第2臺硬碟,使得磁碟陣列完全無法運作。

江智雄說,企業所採購的磁碟陣列,通常都安裝同一廠牌,相同容量甚至是同一批貨的硬碟,因此這些硬碟的壽命和瑕疵也都差不多。他建議企業在同一臺磁碟陣列中,安裝不同廠牌的硬碟,藉此分散硬碟故障的風險。雖說如此,但在實際應用的情況下,由於前述所談到的限制,江智雄所建議此類的做法還是少見。

總之,無論是使用不同出廠時間,或是不同廠牌硬碟的建議,事實上都是為了要減少硬碟同時壽終正寢的可能性。不過,要在出廠時就要求廠商提供這樣的配置,實際上還是有些難度。延碩系統總經理胡學森就表示,硬碟廠商的存貨、供貨有一定的策略,要剛好找到同一廠牌,不同時間出廠的硬碟,使用在同一系統上,事實上有些難度。

但他也承認,這樣的做法的確有幾分保險性,不同時間出廠的硬碟,理論上壽命到期的時間也可以錯開,減少同時多個硬碟在單一系統內損壞的可能性。

不過目前意識到此一問題的企業用戶,還算是少數,多數企業並不會針對磁碟陣列中使用的硬碟出廠時間做記錄,也不會特別提出這樣的要求。雖然透過這樣的配置,並不能完全保證硬碟損壞的時間錯開,但至少理論上這是可行的,能夠稍微減少多個硬碟同時損壞的風險。

方法4:建立良好的備份機制

要避免硬碟損壞,最終的目的還是為了要確保資料的安全性。而備份是企業儲存環境中最基本的資料保護方式,也可以說是在硬碟真的不幸出了問題時,能夠依賴的最後防線。因此,建立良好的備份機制,就是解決這類問題最釜底抽薪的方法。

楊晴雯以親身經歷為例,該院就曾經因為PACS(Picture Archiving and Communication Systems,醫療影像管理系統)檔案量過大,當系統出錯時,備份還原的時間需要數天之久,而在還原的過程中,原本的備份系統又損壞,導致必須從頭使用其他備份還原。「要徹底避免硬碟損壞的風險,備份是唯一的方法。而當我們發現備份還原時間過長,有可能備份系統在這段時間內又發生錯誤時,我們就決定增加備份的系統數量由原本的2套轉為3套,減少此類風險。」

長庚醫院在PACS這種檔案量特別大的系統上,於去年也將整個備份流程改造為D2D2T的方式,來完善原本的備份機制,減少硬碟損壞的風險。長庚醫院行政中心特別助理何國豪在先前接受採訪時就表示,該院將1.5年內產生的X光片資料當作短期儲存資料,直接儲存在系統的磁碟陣列中,讓醫生能夠有最好的效率調閱這些資料;而1.5~7年間的X光片資料,則轉至主要的NAS系統,符合醫療法規的需求。

此外,還準備次要的NAS系統,作為主要NAS系統的備援,每天備份主要NAS系統。超過7年的X光片資料,則轉至LTO-4的磁帶櫃上,永遠保存,且為了不影響主要NAS系統的運作效能,轉存至磁帶櫃的工作,由次要NAS系統負責,確保資料備份能持續保持高度的效率。

何國豪表示,轉成這種D2D2T(Disk to Disk to Tape)的儲存架構後,讓長庚醫院的PACS系統能以資訊生命周期(Information Lifecycle Management)的概念來管理PACS產生的資料。

由他們的經驗可以看出,備份機制的規畫中,也必須要考量到檔案量的大小,從而設計多套備份,減少備份系統也因為硬碟損壞而導致資料流失的問題發生。簡單來說,檔案量越大的系統,更應該規畫更多套的不同備份,減少風險。

備份的確是面對硬碟可能損害風險的唯一徹底解決方法,我們以希捷本次韌體出錯的事件為例,就能看出其重要性。當企業內部的資訊人員在遇到這種需要將數量眾多的硬碟進行韌體更新的狀況時,如果平時沒有良好的備份機制,將難以進行硬碟韌體更新的工作。

其實現在多數企業都有資料備份的觀念,但是能否真正落實,則考驗著IT人員的管理能力,備份雖然是企業最基本,也是最重要的一道資料保護防線,但設立良好的備份機制,還是一刻都不能馬虎的課題。

方法5:企業內部IT人員必須了解與熟悉儲存系統

上述談了很多與技術以及實際操作相關的做法,最後一點則是偏重在人員的管理層面,那就是企業內部的IT人員,必須要熟悉自己使用的儲存系統狀況。

這一點對於將仰賴儲存系統廠商協助維護的企業,尤其重要。因為如果資訊人員無法掌握與熟悉儲存系統的運作與元件更換狀況,企業將不容易落實對於儲存系統的要求。舉例來說,負責維護系統的廠商,如果礙於成本的關係,在硬碟年限該換的時候,卻不更換;或是維護時沒有按照標準流程進行,諸如此類的問題,在硬碟或是儲存系統真的發生問題時,企業的IT人員如果因為長期外包這些工作,沒有掌握儲存系統的狀況,將很難迅速的找出問題,或是快速的反應。

這可以從桃園機場大當機的例子看出來,由於長期將相關的工作交給委外廠商處理,以至於內部專業人員對於儲存系統的了解不夠深入,正好恰逢廠商交接之時,發生問題,就會出現青黃不接的狀況,延長了重要系統的修復時間。

除此之外,如果企業內部的IT人員對於儲存系統的備份流程了解不深,也有可能發生備份不確實的狀況,這常常發生在擁有眾多據點的企業中。舉例來說,前述長庚醫院在改造備份流程之前,是使用UDO(Ultra Density Optical,高密度光碟)來儲存X光片影像檔案,而且必須透過人工操作備份機制,使得很多分院有的時候為了省麻煩,沒有做到PACS每天備份,或者根本不做備份,就造成備份機制有所疏漏,直到改為D2D2T架構之後,才由全自動的方式取代人工,完善原有備份機制。

由此可見,人員對於儲存系統的了解與掌握度,與前述4點的內容息息相關,如果沒有辦法做到這一點,將不容易貫徹企業保護資料的各種作法,也難以透過各種機制,有效減少硬碟損壞的風險,畢竟人員的訓練是貫徹各種機制中,最重要的一環。

 

 5種防範硬碟損壞的做法 

1. 保固期到了,就考慮更換硬碟
2. 利用工具掌握硬碟健康狀況
3. 同系統中選用不同時間出廠的硬碟
4. 建立良好的備份機制
5. 企業內部IT人員必須了解與熟悉儲存系統

 

 硬碟保健方法 

1. 定期更換磁碟陣列的硬碟
2. 打開S.M.A.R.T.功能
3. 使用磁碟陣列所附的工具監測硬碟效能

 

 可監測硬碟健康狀況的軟體 

●  MHDD
支援S.M.A.R.T.方式的分析,也可支援USB介面的儲存設備

●  HD Tune
能檢測運作效能、資料傳輸速率、存取時間、CPU 使用狀況、Burst Rate等項目

●  Active SMART
主要支援S.M.A.R.T.方式的分析,提供警告模式

●  CrystalDiskInfo
提供S.M.A.R.T.方式的分析

●  HDDlife Pro
提供S.M.A.R.T.方式的分析,並支援靜音功能

 

【相關報導請參考「機場當機與希捷韌體事件的省思:你的硬碟還健康嗎?」】

熱門新聞

Advertisement