重複資料刪除技術(De-Dupe)可透過重複刪除演算,去除資料中的冗餘,大幅縮減占用的儲存空間。然而重複刪除演算相當消耗運算資源,對存取效能會造成相當程度衝擊,要應用在對存取效能較敏感的線上儲存設備上,將會面臨許多困難。

自問世以來,重複資料刪除技術一直被定位於備份應用,整合在備份軟體、虛擬磁帶櫃、磁碟到磁碟(D2D)備份儲存裝置等設備中使用。

相較於線上儲存設備,作為備份裝置使用的近線(Near-Line)儲存設備可容許較大的存取延遲,對吞吐量要求也較低,因而能容忍重複刪除演算所造成的效能衝擊,可充分利用其縮減備份資料容量的特點,讓使用磁碟儲存設備長期保存備份資料成為可能,從而減少對於磁帶的依賴。

但面對企業資料量不斷增長,以及虛擬化應用普及後所帶來的資料處理問題,一些廠商試圖將De-Dupe技術應用到線上儲存設備上。

既有的線上型重複資料刪除技術

相較於已十分普遍的備份型De-Dupe技術,線上型De-Dupe技術目前仍在初期發展階段,提供的廠商十分有限。

NetApp

NetApp在2007年推出的A-SIS,就是一種可應用在線上儲存設備的De-Dupe技術。

A-SIS可搭配NetApp的NearStore R200、FAS與V系列儲存設備使用,只要儲存設備的Data ONTAP作業系統版本是在7.2.5.1以上,並啟用A-SIS與NearStore授權即可。

A-SIS屬於後處理(post-processing)類型De-Dupe技術,待資料寫入Volume後,再按照排程設定或以CLI或GUI介面手動啟動執行,執行重複刪除運算時以固定的4KB區塊為單位(也就是WAFL檔案系統的區塊單位)。

A-SIS重複刪除演算並非在存取時即時進行,因而能避開影響前端主機存取的問題,可在離峰時間再執行重複刪除;而且在NetApp儲存設備的WAFL檔案系統管理下,A-SIS處理後的資料仍可直接讀取與寫入,不像其他廠商De-Dupe後的資料必須先還原成原始狀態,才能進行存取。缺點則是只能應用在FlexVol型的Volume,不能用在傳統Volume,且重複比對也僅限於該Volume。

Dell Ocarina

Dell在2010年7月藉由併購新創廠商Ocarina,取得了後者的內容感知儲存最佳化技術(Content-Aware Storage Optimization),除獲得Ocarina原本的軟體與應用伺服器產品外,預期還會將相關技術應用到Dell自身NAS產品上。

這項技術特點在於整合了壓縮與重複資料刪除兩類技術,系統會解析檔案類型,分別使用不同演算法進行壓縮與重複資料刪除處理,還能讓使用者調整運作區塊大小,適應處理不同型態檔案。

架構上分為Ocarina Optimizer與Ocarina Reader兩個元件,前者負責對原始資料進行重複刪除與壓縮,後者負責將前者處理後的資料、重組為前端主機可讀取的原始檔案形式,並提供彈性的政策功能。缺點是不適用寫入密集環境,較適合讀取密集或少量寫入環境。

部署時採用類似閘道器的方式,將Ocarina的應用伺服器部署在NAS存取路徑上,充當前端主機與後端NAS間的中介,並支援高可用性叢集架構。Ocarina也提供純軟體與OEM的銷售形式。

EMC

透過併購,EMC先後取得了Avamar與Data Domain的De-Dupe技術,兩者基本上都是定位於備份應用,不過在這之外,EMC亦在2009年初為Celerra系列NAS的DART作業系統增加稱為Celerra Data deduplication的De-Dupe功能。

Celerra Data deduplication以檔案為基礎運作,兼具De-Dupe與壓縮兩種功能,為避免對前端主機的存取形成衝擊,使用者可透過Celerra Manager介面,設定De-Dupe掃描週期(預設是每隔7天),可接受De-Dupe處理檔案的條件(多久沒被存取、大小),以及排除在De-Dupe外的檔案,藉此可將較不被存取的檔案納入De-Dupe、經常被存取的檔案則不進行De-Dupe。

若是未進行De-Dupe的檔案,在存取方面將不會受到任何影響。若前端主機要讀取已被De-Dupe的檔案,DART作業系統會將檔案讀進Celerra記憶體中還原後,再回應給前端主機,整個作業都不在磁碟上進行,藉以提高速度。

若要對De-Dupe的檔案進行寫入或修改,則須先在檔案系統中還原回原始狀態,對效能有較大影響。整體來說亦是較適合讀取密集或少量寫入環境,不太適合寫入密集環境。

Permabit

Permabit是一家De-Dupe軟體廠商,由於該公司業務以OEM形式為主,主要產品是2010年中推出的Albireo資料最佳化軟體,設計上是以嵌入第三方廠商儲存軟體中的方式運作,透過API為儲存軟體提供一個De-Dupe諮詢機制,確認寫入資料是否重複(不參與讀取作業)。

依用戶要求,Albireo可採用線上處理(in-line)、後處理與平行處理等三種部署架構,並提供區塊、檔案與串流等三種形式的API,可供整合到不同類型的儲存軟體中,其中檔案與串流兩種檔案層級的API還提供內容感知功能,可解析寫入檔案類型、調整De-Dupe處理使用的區塊大小以達到更好的效果。

Albireo可搭配線上、備份、歸檔等不同類型儲存設備,或備份軟體使用,當應用在線上儲存設備時,可採用對效能衝擊最小的平行處理架構,當前端主機將資料寫入儲存設備時,Albireo會透過API同時取得一份資料複本,對其進行De-Dupe比對,若確認資料為重複,則會驅動儲存系統軟體以非同步方式更新與整併重複的資料。

目前已有Bluearc、Xiotech等儲存廠商與Permabit簽約,準備引進Albireo來搭配他們的儲存設備與軟體。

Nimbus

Nimbus的HALO作業系統可提供整合儲存管理服務,能透過儲存虛擬化技術,將管理的磁碟空間透過CIFS、NFS、iSCSI等協議給前端主機存取,而且還整合了in-line型De-Dupe技術。目前已被應用在Nimbus的S-Class企業儲存設備。

 

目前幾種線上儲存重複資料刪除技術的比較

(看大圖)

 

線上儲存的特性,影響了重複資料刪除的應用

相比於居於第二線的備份設備,線上儲存設備有許多不同的特性,連帶地,De-Dupe技術也面臨不同的要求:

對效能更敏感

將資料以重複刪除演算分解為基本元素與索引儲存,以及反向運作將經過重複刪除演算後的資料回復為原始狀態,以便供前端主機存取,都需要消耗運算資源。

線上儲存設備必須因應前端主機即時寫入與讀取資料的要求,對效能十分敏感,不能允許因執行De-Dupe與還原演算,而導致前端主機的存取出現延遲。

重複刪減率先天較低

許多備份型De-Dupe技術宣稱的20~30倍,甚至是50倍以上的空間節省比率,都是以「每天執行全備份」為基準。

ㄧ般情況下,企業資料的異動量通常有限,每天新增或異動部份,占總資料量的比率並不大,因此若每天都執行全備份,則兩次全備份之間,絕大部分的資料顯然都是重複的。在這個基礎上運用De-Dupe,得到幾十倍的空間節省效果是理所當然的。

但換成線上儲存環境,就沒有前述那種資料先天就帶有很高重複性的現象,能縮減的比率十分有限。

線上儲存直接處理原始資料

備份裝置存放的資料是原始資料的複本,只有需要還原時才派得上用場;線上儲存裝置存放的,則是必須隨時因應前端主機存取的原始資料。因此整合在線上儲存設備中的De-Dupe技術,對重複刪減演算法的可靠性與可用性,將有更高要求。

需與其他儲存功能整合

許多進階儲存功能,都是基於線上儲存設備的原始磁碟進行,如快照、Clone、遠端複製等,因而在線上磁碟運作的De-Dupe,也必須整合這些應用功能,不能因啟用De-Dupe而妨礙其他功能執行。

 


熱門新聞

Advertisement