DHL資料中心維運負責人Ctibor Lesa

圖片來源: 

iThome

隸屬於德國郵政集團旗下最大的國際快遞公司DHL,不只是目前世界最大的航空快遞貨運公司之一,更運用IT在全球各地採用自建資料中心的方式,隨時掌控全球各據點貨物派送的最新進度。

而去年,DHL在捷克共和國新打造完成的布拉格資料中心,後來也取得Uptime Institute在設計(Design)和設施(Facility)的Tier 3等級認證。近日負責DHL IT Services資料中心維運負責人Ctibor Lesa來臺時也分享了他在擔任DHL資料中心長達10年間的維運和管理經驗。

Ctibor Lesa目前主要負責統籌管理了DHL在馬來西亞、美國與捷克共和國的資料中心規畫和維運。他曾負責完成DHL資料中心的線上升級專案,來通過Tier 3等級設施的驗證,並也為資料中心改良機械系統,以提高資料中心的可靠度與耐用度。

Ctibor Lesa擁有機械工程碩士,在加入DHL以前,曾在機電工程公司負責管理整體機房冷卻系統的設計與維護,而在進入DHL後,為改善資料中心可靠度,並減少人為錯誤的發生,也將線上負載測試與故障模擬導入資料中心內部。

Ctibor Lesa表示,這些線上負載測試與故障模擬,能提升資料中心設施的可靠度(Reliability)與可預測性(Predictability),例如,透過線上測試電力供給設備的運作情況,以及模擬各種可能的電力系統故障狀況,來預先演練故障排除,甚至能進一步做到診斷設備的耗損程度,來提早進場維護。

不過他也強調,在進行這些測試過程中,IT管理人員得投入更多的心力專注在測試上,並也得確保不會對IT維運帶來影響。

除了線上負載測試與故障模擬外,Ctibor Lesa說,提高資料中心可靠度的第一步是建立起定期維護(Regular Maintenance)機制,不論是電力設備、伺服器或不斷電系統等都需要定期的保養維護,才能夠確保這些設備能維持正常的運作。

他建議,企業應花上更多的投資在設備維護上,像是採購相關管理軟體,來建立系統化的設備保養排程,因為「跟資料中心設備故障導致龐大金額損失相比,企業花在設備維護的每一塊錢帶來收益更多達1萬倍。」他說。

此外,Ctibor Lesa指出,這些經由線上負載和模擬測試的結果,也能夠通過各種資料蒐集系統,如環境監控系統、監控管理系統及資料監控系統等,來取得龐大機臺設備資料,並能透過分析資料,來協助資料中心改善各種問題。例如,資料中心意外事件中,3成是由不斷電系統和電池故障所引起的事故,而透過分析這些測試和模擬結果的資料,有助於改善不斷電系統的設計。

Ctibor Lesa從DHL資料中心多年的經驗也觀察到,平均每5起資料中心設備的故障,幾乎就有1起是來自於人為疏失,最嚴重可能導致資料中心維運停擺,他也強調,人為疏失並非無法避免,而是可以用管理減少出錯的機會。以下為進一步專訪他管理DHL三大洲資料中心的經驗:

 Q  是否能談談DHL在全球資料中心IT建置的情形?

 A  我們最近完成了在美國賓州梅卡尼克斯堡(Mechanicsburg)一座資料中心的整修專案,包括了在資料中心所有機電設備運轉期間,測試線上關鍵IT負載實際運作情況。

這項專案包含了全面重新設計電力供應基礎設施與結構,包括了採購新的備用柴油發電機組、ATS(自動切換開關)、UPS不斷電系統模組、配電盤(Distribution Switchboard)、機房空調(Computer Room Air Conditioning,CRAC)組件,以及監控系統。這個專案是分階段來執行,才能夠如期按預先規畫的試運行(Commissioning)時間表來執行,以降低新舊基礎設施交替期間的風險,而不會對於IT營運造成重要影響。

 Q  DHL為什麼要自建資料中心?

 A   DHL在IT服務上的策略是傾向自己來管理區域性關鍵資料中心設施,只有在需要快速呈現IT服務或是一個小規模資料中心空間時,才會向主機代管業者租用資料中心。採取租用方式可以縮短服務推出時間。我們也嘗試著均衡發展自建資料中心營運的優勢。

 Q  你在管理DHL資料中心時遇到的最大挑戰?

 A  IT基礎設施內充滿著龐大網路、儲存、備份、伺服器設備和資料中心設備的基礎設施。

而過去的管理挑戰在於IT部門和資料中心設施部門協同合作,來了解資料中心設施的所需容量(Capacity Requirement),以符合新專案的需求。而當資料中心基礎設施管理(Data Center Infrastructure Management,DCIM)工具出現後,也讓任一個設計部門在資料中心設備的管理,有了顯著的改善。

另一個熱門談論的話題依然是資料中心基礎設施的可靠度(Reliability),而要持續提升資料中心的可靠度,採用作法首先得有合適的資料中心試運行流程、定期的維護機制、線上負載測試和結果分析模擬,才能夠持續地來改善資料中心的可靠度。

現在最大的挑戰則是專業人才(Staffing)的不足。這些具有IT基礎設施專業人才的流失,已經是資料中心管理者不得不面對的挑戰,而是否具備有市場所需的IT基礎設施專業技能,也主導了優秀人才的市場競爭力。

除了專業技能外,員工向心力、職涯發展和動機也十分重要。而能不能取得資料中心基礎設施各細節的主導權,也影響資料中心能不能持續保有一群訓練有素專家的關鍵。

 Q  如何減少資料中心的人為出錯?

 A   我深信,可以透過管理方式,來大幅降低因人為疏失造成資料中心非計畫停擺的比例。藉由定期在真實設備故障模擬下所做的一種可控制的線上負載測試,可以建立起資料中心維運團隊的信心,在事故判斷上有更多把握。

維運團隊越有信心,在面對意外發生時也就越能提高資料中心的可靠度。意外事故在所難免,但是比起加強設備汰換,更重要的是能正確反映出事故本身,以及提供顧客透明的溝通管理。

 Q  近2年資料中心管理方式和過去有何不同?

 A  這2年許多資料中心設施配備有更多監測設備,而在市場上推出的新產品都必須具備遠端管理的能力,再者,這些監測設備操作也越來越友善和直覺。但要將這些監控應用產生的資料拿來評估,仍需要更多努力。

但不採取行動的資料將毫無意義(The Data Without Action Are Useless)。

我曾看過資料中心配備了強大DCIM工具,但是將取得資料拿來使用的情況卻非常少;而有時候,這些監測設備提供資料過多,已超過資料中心維運人員可以有效管理和執行的範圍。

 Q  DHL怎麼分析這類資料中心的監測資料?

 A  測試結果分析(Test Result Analysis)非常重要,並且也是決定資料中心基礎設施能不能更耐用、可靠,以及可預測的關鍵。但是,卻只有很少資料中心設施有採用。

DHL在IT服務上的策略上,會依資料中心設施的不同而採用不一樣監控應用,這些蒐集而來的資料基本來源,有來自環境監控系統(Building Management Systems,BMS)或其他能感測更多資料的系統,如DCIM系統。

這個測試結果分析是將可預期的自動化操作(做為單一設備/分配路徑故障模擬(Distribution Path Failure Simulation)的一種反應)與在資料中心基礎設施的時間記錄(Records of Time)、機電設備規模(Magnitude)大小及序列(Sequence)資料的實際反應進行比較,而得出可用的分析結果。

熱門新聞

Advertisement