iThome
嚴格來說,3項基本的資料縮減技術——Thin Provisioning、壓縮與重複資料刪除,只有後兩者才算是真正的資料縮減技術,實際提供了縮減資料容量的效果,但Thin Provisioning也能在某些情境中,達到節省空間耗用的效用。
Thin Provisioning
這是一種「智慧化」的區塊儲存空間配置技術,傳統區塊儲存設備的LUN或Volume,容量是預先固定配置的,即使前端主機實際上只寫入少許資料,其餘未使用空間也無法回收使用,空間浪費相當大。
而Thin Provisioning則透過虛擬化的空間配置技術,先配置給主機一個虛擬容量的LUN或Volume,只有在前端主機實際向LUN或Volume寫入資料時,系統才會實際配給與占用儲存空間,如此可減少空間浪費。一些較先進的Thin Provisioning還能提供空間回收功能,將已刪除資料的空間回收到儲存池中,進而重新利用。
Thin Provisioning的著眼點是「減少空間浪費」,而不是直接縮減資料,但也由於不是直接對資料執行運算操作,耗用的系統資源相對也少,因而已成為當前幾乎所有儲存設備的基本功能。
壓縮,以及重複資料刪除
兩者都是透過演算法,比對、識別與去除資料中的冗餘,從而達到縮減資料容量的目的,差別在於兩者識別資料冗餘的範圍不同。
壓縮技術處理資料的範圍,是單一的檔案,雖然需要較多的處理器運算資源,但由於一次只處理一個檔案,需要的記憶體資源相對較少。
而重複資料刪除處理資料的範圍,則是跨整個儲存區的所有檔案,所以有些廠商又稱之為「全域壓縮(Global Compression)」,去除資料資料冗餘的效果也比壓縮更好,但也非常消耗資源。因而如何在不造成主機過大負擔的情況下,運行重複資料刪除運算作業,也成了當前儲存資料縮減技術發展的一大課題。
另外,壓縮與重複資料刪除兩種技術也可以並用,達到更大的資料縮減效果,例如,多數廠商的作法,是先執行重複資料刪除,再進行壓縮(如HPE 3PAR與VMware);也有廠商的方式是先壓縮,再執行重複資料刪除(例如NetApp ONTAP 8.x版)。
重複資料刪除的類型區分
雖然重複資料刪除耗用的資源龐大,但提供的資料縮減效果,也是當前所有資料縮減技術中最好的,因而是這個領域的發展熱點,並衍生出多種類型,各自具有不同的特性,我們可以從處理資料的型態,以及重複資料刪除作業的程序,來檢視重複資料刪除技術的類型與特徵。
檔案級 vs. 區塊級
從處理資料的型態來區分,重複資料刪除技術可分為檔案級與區塊級,前者處理資料的單位是「檔案」,後者則是以「區塊」作為處理資料的單位。
其中檔案級的重複資料刪除,其實,就是以前所謂的「單實例儲存(Single Instance Storage,SIS)」。SIS對於寫入的資料,以檔案為單位來求取與比對特徵值,藉此判定重複與否,然後去除重複,而在整個儲存區內,只保存一份檔案實例。由於SIS比對資料的精細度只到「檔案」層級,而不在更低的層級作業,所以消耗的系統資源較少,但識別資料冗餘的能力也因此受限——因為兩個檔案就算只有少數區塊不同(即使只有一個字元不同),SIS仍會視為不同的檔案,分別占用兩份空間。
複合式的資料刪減運作架構:目前的資料縮減應用,大多都是多種技術併用,典型的作法是先跳過系統置換空間(Swap)的區塊,然後進行重複資料刪除,接下來,再對重複資料刪除處理後的區塊進行壓縮。依據我們過往的測試經驗,比起只使用重複資料刪除,如果能同時使用重複資料刪除技術與壓縮技術,可提高大約20%的資料縮減效果。圖片來源/Nakivo |
線上處理 vs. 後處理
相較之下,區塊級重複資料刪除是以更小的區塊為單位,來計算與比對特徵值,從而判斷資料重複與否,去除資料冗餘的效果遠高於SIS,但消耗的資源也更大,也須使用更大的索引,來追蹤儲存區的所有區塊。
從執行重複資料刪除作業的程序來看,我們可以區分為下列兩種基本架構:線上即時處理(inline),以及後處理(post-processing)。
其中的線上即時處理,指的是在資料寫入後端儲存媒體之前,在主機端或儲存設備控制器端,就完成資料刪減運算,所以寫入儲存媒體的資料是已縮減的,但會持續影響系統效能,衝擊較大。
至於後處理架構,則是指資料在寫入儲存媒體後,再以指令或預設排程啟動重複資料刪除作業。由於資料寫入儲存媒體時,仍是未經縮減的原始型態,須待後續的重複資料刪除作業啟動與完成後,才能縮減占用空間,所以須耗用較大的「暫存」儲存空間。不過另一方面,在後處理架構當中,可選擇離峰時間再啟動重複刪除作業,對系統效能影響較小。
來源端 vs. 目標端
從執行重複資料作業的位置,可以區分為來源端與目標端等兩種類型。
來源端的處理方式,是在產生原始資料的前端主機,透過代理程式部署重複資料刪除引擎,這種架構會影響主機的效能,但優點是資料在送出主機、傳送到儲存網路之前,就已經是縮減後的狀態,可減少傳輸頻寬,許多備份軟體都是採用這種架構。
目標端的處理方式,則由後端的儲存設備、備份伺服器等,來為前端主機統一執行重複資料刪除。前端主機的資料傳送到後端儲存設備或備份伺服器後,再集中執行資料比對與刪減作業,雖不能節省網路頻寬,但也不會因此耗用前端主機的資源,而是讓重複資料刪除的運算負擔都集中到後端。
熱門新聞
2024-11-18
2024-11-20
2024-11-15
2024-11-15
2024-11-12
2024-11-14
2024-11-12