iThome

包括雲端災難復原服務(DRaaS)在內,無論哪一種災難復原系統,幾乎都是由下列兩大部分組成:(1)資料搬移機制,也就是將資料複本從本地端搬移到遠端站點的方法;(2)遠端的備援站點,也就是用於接替主站點工作的遠端軟、硬體設備。

DRaaS的資料搬移機制,基本上都是使用非同步遠端複製,又可分為主機端與平臺∕儲存端等兩大類型。

大多數DRaaS服務都是採用主機端遠端複製,也就是透過安裝在受保護伺服器主機上的代理程式(Agent),來驅動遠端複製作業,優點是適應範圍廣,可搭配各式各樣的作業平臺與應用程式,但會影響主機效能;至於平臺∕儲存端遠端複製,則是利用底層作業平臺或儲存系統的遠端複製功能,來執行遠端複製工作,例如NetApp與Nutanix的DRaaS服務,都屬於這種類型,優點是不影響上層應用主機效能,但缺點是必須在2站點搭配相同作業平臺或儲存系統才能運作。

而在備援站點的組態方面,DRaaS基本上都是採用虛擬化的站點環境。

而災難復原系統的運作,則分為3個階段:

(1)資料複製:依照用戶設定的還原點目標(RPO),定期將資料從本地端複製到遠端備援站。

(2)失效切換(Failover):當災難發生時,將用戶端對於應用程式與資料的存取,從原先的主站點切換到備援站點。而備援站點一般則是依照最新的資料複本狀態來啟動。

(3)故障還原(Failback):當災害緩解、主站點修復後,將用戶端的存取重新導回主站點,同時也將主站點故障期間寫入的資料,倒回寫入到主站點。

至於備援站點所能提供的還原能力,可分為3個層級:

● 冷(Cold)備援:等同於遠端備份,只保存應用程式資料複本或VM的映像檔,但必須經過還原程序才能使用。

● 暖(Warm)備援:在備援站點,備妥對應於用戶端站點的應用環境待命,定期保持2個站點的資料同步,當主站點失效時,啟用備援站點,並將網路存取路徑切換到備援站點,由備援站點接手服務。

● 熱(Hot)備援:在備援站點維持一套平行於主站點、且持續運作的應環境,平時持續維持兩個站點的資料同步存取,所有工作負載都同時寫入兩個站點,當主站點失效時,由備援站承接所有工作負載。

RPO與RTO

災難備援的RPO,是由遠端複製的頻率來決定——複製頻率越密集,主站點失效時損失的資料量也越少。而不同的遠端複製技術,允許的複製頻率也有差異。常見的非同步遠端複製,RPO通常可縮短到數分鐘到1個小時。而同步遠端複製或遠端鏡像,則具備RPO為0的資料無損能力。

至於災難備援的RTO,則是由備援站點上線運作所需準備時間來決定。基於備份的冷備援,由於還需要還原才能使用,通常需要以小時甚至以天計算的RTO,但成本相對低廉。

至於暖備援與熱備援,我們可以將前者看作是一種Active-Standby架構,備援站點平時處於待命狀態,當主站點失效時,需幾分鐘時間來啟動備援站點,若應用環境較複雜,還需更長啟動時間。熱備援則可類比於Active-Active架構,平時讓2個站點始終維持平行同步運作,當主站點失效時,備援站點能「立即」接手持續工作,RTO可達到0、也就是完全沒有停機時間的理想狀態,但成本也十分昂貴。

DRaaS的應用模式

依據DRaaS服務商對用戶災難復原程序的介入程度,DRaaS應用也能分為3種應用模式:

● 全託管(Managed):用戶除了從服務商取得備援站點的系統與資料存取權限外,所有管理工作都委託DRaaS服務商承擔,包括複製工作設定與執行,復原計畫演練,甚至實際復原作業的執行等。在這種模式下,用戶的負擔最輕。

● 自助管理(Self-managed):DRaaS服務商只提供備援站點資源與遠端複製工具,其餘工作完全由用戶自行處理,包括複製工作的設定與執行,復原計畫的流程設定與演練等,用戶擁有最大的控制與自由,成本也相對最低。

● 輔助管理(Assisted):介於全託管與自助管理之間,DRaaS服務商協助用戶設定災難復原流程,並提供諮詢與建議,而用戶則自行實施部分或全部的復原作業。

不同DRaaS服務商提供的應用模式有所差異,例如,Datto.IBM、Recover Point是以全託管形式為主,微軟、VMware、11:11 Systems是以自助管理為主,而另一些廠商,如Tierpoint、Unitrends等服務商,則同時提供全託管與自助式服務。

對於有意導入DRaaS的用戶,可視自身人力、專業能力,以及應用系統的情況,選擇能提供合適應用模式的DRaaS服務商。例如缺乏人力的用戶適合全託管型式。若用戶的應用系統較為特殊或敏感,不適合交由第3方的服務商接管,此時便不能選用全託管,而須採用自助或輔助管理。

 災難復原的3個基本層級 
災難復原可概分為3個層級,DRaaS服務基本上都可達到暖備援層級,透過雲端備援站點,最短數分鐘,最長數小時就能接手用戶的服務。

 不同遠端複製技術對災難復原能力影響 
主站點與備援站點之間進行資料複製的頻率,決定了進行復原時的還原點目標(RPO),也就是損失的資料量大小。常見的非同步遠端複製,能提供數分鐘到數小時的RPO,若要獲得完全不損失資料、RPO為0的復原能力,就必須改用同步複製或遠端鏡像,但成本也昂貴的多。

 相關報導 

熱門新聞

Advertisement