聯華電子資訊工程處專案管理部經理張仁寬表示,要成功導入虛擬化,第一步要先找出具有立竿見影效果的導入目標。

圖片來源: 

iThome

早在2004年時,臺灣才剛開始出現虛擬化這個名詞不久,聯華電子(聯電)就開始嘗試虛擬化技術的可行性,隔年就正式展開導入,在2008到2009年之間,更是將1,200臺伺服器縮減到800臺,相當於2天就要整併1臺,到了2010年初,聯電透過虛擬化共減少了21座機櫃,相當於省下一座機房的空間。

聯電廠區散布在多地,光是電腦機房就有14間,x86伺服器更多達上千臺,類似MES系統的大型AP也有上千套,小型AP更是數十萬計。

為了用最精簡、低成本而有效率的方式來提供基礎架構服務,聯電從2004年著手整併伺服器,從分散式的IT架構轉為集中式,2005年正式導入虛擬化技術,隨著虛擬化導入數量和規模越來越大,更進一步地,聯電也開始邁向自動化管理的階段。

早年聯電的管理方式採獨立伺服器的管理,有許多伺服器各自放置在各廠區,有些使用者單位即使人數不多,也會自己擁有一臺小型伺服器就近提供OA系統。在聯電資訊工程處下負責維運的EDC部門成員,得親自到各廠區才能維護這些主機,遇到主機發生問題時不容易及時提供服務。

為了能夠及時提供IT服務,聯電開始評估哪些服務可以整併到單一伺服器上,剛好2004年時,VMware開始將虛擬化技術引進臺灣,聯電遂決定嘗試透過虛擬化整併伺服器的可行性。

在2004~2006年這段期間,聯電的目標是嘗試將周邊服務虛擬化。一方面因為聯電是臺灣第一波運用虛擬化的企業,沒有可供參考的經驗,例如不知道實體機器轉換到虛擬機器後的處理器使用率會變成多少。剛開始,聯電先透過概念驗證來累積虛擬化建置經驗,同時找出1臺伺服器可承載的虛擬機器數量,以便後續評估整併需求,安排虛擬化計畫之用。

先整併具有備援機制的非核心OA服務

當時最大的挑戰其實不是虛擬化經驗不足,而是聯電的服務不能中斷。因為聯電的生產線幾乎全年無休,每天24小時,每周7天都在運轉,一年頂多歲休2~3天,伺服器實際可停機的時間只有8小時,但又不可能將所有整併轉移工作都集中到歲休時才進行。

所以,聯電先從非核心的OA服務著手,例如DHCP服務或是有備援主機的AP和網站。因為像DHCP服務原本就會建置多套系統,相互備援。聯電先將備援主機虛擬化,一方面不會中斷使用者的服務,另一方面也可以向使用者證明虛擬化的可行性。

另外還有一類應用是老舊作業系統的AP,例如Windows 95、98、NT或2000版本上的應用程式,因為購買時沒有原始碼無法自行修改,也找不到舊機器可汰換,因此也順勢轉移到虛擬機器上。

為了盡可能地減少停機時間,聯電IT先與各部門安排停機行程,並且事先完成所有準備工作,只剩下切換服務需要的停機時間。2006年時,從規畫到上線完成,聯電花了半年時間將67臺伺服器整併到10幾臺伺服器中。因為當時只有單核心處理器,所以,1臺實體伺服器只能執行3個虛擬環境。

經過2年經驗累積,聯電研究出一套導入SOP,包括如何尋找導入標地、如何計畫,評估ROI等。後來到了2008年,聯電IT更設定了一個目標,要將1,200臺伺服器整併到800臺。

不料遇到了金融風暴,聯電凍結IT投資,不能採購新的伺服器。為了仍舊要達成減少400臺伺服器的目標,聯電先篩選所有的伺服器,找出可以用來作為Host主機的伺服器,再排除執行關鍵服務不能中斷的設備,最後剩下約30~40臺可用的伺服器。因為這些伺服器在帳面上都分屬各廠區,還須經過協調進行成本轉移,改將主機歸屬到資訊工程處的EDC部門下。

這些候選主機集中以後,聯電優先將超過10年的老舊機器淘汰,將服務整併到這些Host主機上。最後在2009年時達成減少400臺伺服器的目標,而且聯電還持續推動虛擬化和AP整併,到了2010年初,有300臺實體伺服器的AP整併到58臺伺服器上,減少了242臺實體設備。而虛擬化成果上,也在92個Host主機上執行共445個虛擬機器,減少了353臺實體設備。若以機櫃數量來看,總共減少了21個機櫃,相當省下了一座機房的空間。

虛擬化能降低時間壓力,有利預先規畫工作

聯華電子資訊工程處專案管理部經理張仁寬還點出另一個虛擬化的好處,他說,過去作業系統或防毒軟體更新時,IT部門必須和使用者搶時間,2小時停機時間必須正確完成所有更新程序,一旦出錯會導致停機時間延後,維運工程師的壓力很大,反而容易發生錯誤。

導入虛擬化以後,維運工程師可以先將AP複製到另一臺虛擬機器上,然後關閉副本AP後更新作業系統,更新完成確定AP能順利執行後,再將使用者知道的AP網址切換到副本AP上,然後繼續更新第二臺AP。

對使用者而言,只有切換過程需要停機,但維運工程師可以在沒有停機時間壓力下,按照更新計畫執行。

張仁寬認為,對維運人員而言,可以預先規畫,順利執行,就是最簡單的工作模式,更容易解決維運上的盲點和不便。就算半夜AP當機,維運人員也可以先在家中遠端切換AP讓服務維持,不用急著趕到辦公室處理。

虛擬化的第一步,要鎖定最有效果的導入目標

整體來看,歸納聯電虛擬化經驗,張仁寬說,實現虛擬化可以從擴充現有環境著手,例如原本要汰換10部老舊伺服器,可趁機說服老闆擴大專案規模,順勢導入虛擬化,同時整併同類型服務,也可以從測試與開發環境著手。

另外,張仁寬建議,一定要找出「立竿見影」效果的導入目標,也就是找出效果最明顯的機器,例如像效能不足或需要升級的老舊伺服器,或者是處理器利用率只有10%的系統。他解釋,利用率低代表這個AP負載較低,重要性也不高,或是不需要經常執行,容易找出停機空檔。

這些目標包括像老舊設備、基礎建設伺服器如DNS、DHCP或檔案伺服器、測試與開發環境、工作群組或部門使用的系統,另外也可以將分支機構的需求整併到中央,以及永續經營計畫中要整併的對象。

虛擬化應用規模越來越大以後,張仁寬表示,新的挑戰是自動化管理。聯電也自行打造了4種不同的自動化管理工具,包括了IOC(Infrastructure Operation Center)、NOC(Network Operation Center)、資安入口網站和IT服務入口網站。

例如IOC平臺負責管理聯電全球伺服器、資料庫、SAN交換器和儲存系統、備份狀態、零件庫存狀態、效能和預警等。在IOC上,除了整合實體伺服器的管理資訊以外,並用相同標準來監控虛擬機器,另外也將Host主機狀態納入管理,並會依據執行效能訂定KPI指標,例如某臺伺服器執行一項服務平均要10分鐘,KPI就會是10分鐘加減3個標準差的時間,若某次運算用了15分鐘,就值得進一步細究原因。

因為聯電管理基礎架構和網路分屬不同團隊,再加上AP團隊,遇到當機事件時,這三方的負責人都會同時收到警告訊息,彼此也會同時到處詢問可能影響當機的情況。

張仁寬表示,下一步,聯電希望建立一個能自動彙總分析這些警告訊息的Smart Detect智慧平臺,從警告訊息中自動找出哪一個服務當機,減少這種多頭馬車,各自解決問題的作法。

 

聯電打造自動化工具的虛擬化管理要點

● 伺服器健康偵測與管理

● 效能報表和分析

● 透過虛擬化遷移進行伺服器整併

● VM動態配置與設定

● 修補程式管理與軟體更新

● 虛擬機器備份與回復

● 災難備援

資料來源:張仁寬,2011年5月

 


相關報導請參考「私有雲實踐術

熱門新聞

Advertisement