iThome

歸檔(Archive)的目的,是因應法規遵循或其他需求而長期保存資料。由於這些需要長期保存的資料中,往往含有敏感性內容,而且涉及的保存期限至少是5年以上,甚至是7到10年,所以用於歸檔儲存的儲存設備,必須具備高安全性,低成本與高耐久性等條件。

於是,本地端磁帶設備,便成為企業歸檔應用最普遍選擇的儲存設備。一方面,在本地端資料中心保存歸檔資料,可便於企業管控、確保資料安全。另一方面,磁帶也能提供長期儲存所需的低成本與耐久性。至於公有雲,過去很少會被列入歸檔儲存的選項。

公有雲服務的基本型態,是IT基礎資源與服務的代管,以及使用權的租賃,主要訴求是免除用戶端的維運負擔,以及按需採購、依實際需求隨時調整資源使用量的靈活性,特別適合需求波動大,或臨時、短期的IT應用需求,而與講究長期保存的歸檔應用,可說是截然相反。

公有雲的使用雖然已經十分普遍,能涵蓋各式各樣的企業IT應用需求,但大多數被用戶放到公有雲上的應用或資料,都不會期待留存5年、10年,然而這卻是歸檔應用的基本要求,與過去典型的公有雲應用型態大異其趣。

不過,隨著公有雲服務商持續改善基礎設施與服務架構,近年來推出的公有雲長期儲存服務,在成本、耐久性、安全性等方面,都已能承擔企業歸檔應用的要求,足以成為本地端磁帶設備之外的歸檔儲存選擇。

新興的公有雲歸檔儲存服務

公有雲上的儲存服務已發展了十多年,應用範圍逐漸擴展到企業儲存應用的每一個面向,然而,將觸角延伸到長期歸檔儲存、挑戰磁帶的地位,還是這幾年的事。

早在2012年8月,AWS就推出針對長期儲存應用的S3 Glacier服務,不過更能因應歸檔應用的Glacier Deep Archive,是在2019年初才上線。類似的,微軟Azure是在2017年中,發布歸檔儲存用的Azure Archive Blob Storage服務,Google Cloud同類型的Google Cloud Archive服務,更是到2020年初才正式推出。

除了前述3大公有雲領頭服務商外,其他主要公有雲服務商的歸檔儲存服務,也大多是這3、4年內才問世,例如IBM Cloud的Object Storage Archive,以及Oracle Cloud的Archive Storage,是分別發表於2018年底與2017年底。

也就是說,相較於物件、區塊、檔案等類型的公有雲儲存服務,因應長期儲存應用的公有雲歸檔儲存服務,算是相當晚近才成熟的一種服務類型。

公有雲歸檔儲存服務的基本型態

公有雲長期歸檔儲存服務大多是物件儲存服務的延伸發展,利用物件儲存系統的擴展性、耐久性、可靠性、可用性與存取管制能力,來提供安全、耐久,且具備彈性擴充能力的儲存空間。

不過對於歸檔儲存應用來說,關鍵的需求還包括足夠低的成本。

公有雲物件儲存服務的底層,基本上是由大容量、低成本的磁碟所組成的大規模分散式物件儲存系統,儘管透過公有雲服務商超大規模採購量,可以相當程度地壓低成本,但標準的公有雲物件儲存服務,單位儲存成本仍然無法與磁帶競爭。因此針對歸檔應用的公有雲歸檔儲存服務的底層,是公有雲物件儲存系統的低成本版本,藉由一系列限制措施,例如:更長的訂閱期限門檻,較低的效能與可用性,還有拉長資料檢索取回(retrieved)延遲時間等,來降低服務營運的負荷與成本,以便提供更具競爭力的單位儲存成本。

在這些降低成本的措施中,最特別的是,拉長資料檢索取回延遲時間這一點,這也是歸檔儲存服務與標準型物件儲存服務最大差異所在。

標準型物件儲存服務取回資料所需等待的延遲時間,是毫秒等級,而歸檔儲存服務則會將延遲時間拉長到數小時,甚至十數小時。藉由大幅拉長檢索與取回資料的時間,不僅可大幅降低服務商營運負擔,也有條件藉此引進非磁碟類型儲存裝置,進一步降低成本。

換句話說,若必須在秒級或分鐘級的延遲內,回應用戶端取回資料的要求,顯然只有使用磁碟裝置才能辦到;但若能允許數小時的延遲,那麼就算使用磁帶設備,也能滿足這樣的延遲時間。

事實上,當AWS在2012年推出S3 Glacier儲存服務之初,ZDNet、The Register等IT新聞網站,便曾引用非官方的內部消息指稱,這項服務的底層是基於磁帶,其他還有使用藍光光碟等媒體的推測。由於各公有雲服務商官方很少公布基礎架構細節,這些推測都未能獲得證實,相對地,也並未完全推翻。

就我們來看,即使是採用磁碟裝置,當存取延遲拉長到數小時等級之際,也能帶來可觀的營運成本節省,服務商平時可讓磁碟裝置停機離線,待收到用戶的存取要求後,再行開機上線。

接下來,我們便從訂閱期限門檻,成本,可用性,耐久性,資料取回延遲,以及安全性功能等幾個面向,來檢視6大公有雲服務商的歸檔儲存服務特性。

6大公有雲長期歸檔儲存服務比較1:訂閱期限門檻與成本

針對通用的標準型物件儲存服務,公有雲業者多半沒有訂閱期限門檻要求,用戶可隨時停止。

相對的,歸檔儲存服務則要求固定的最短訂閱期限,短則30天,長至180天,所以用戶訂閱前必須評估清楚,否則一旦訂閱後,至少1個月到半年內都無法停止。若用戶提前刪除或搬移歸檔資料,公有雲服務商將會收取等同於剩餘天數的費用。

對照其他層級物件儲存服務,一般月租費越便宜的服務類型,最低訂閱時間門檻也越長。例如,AWS的標準型S3,沒有最低期限門檻;次一級的非經常存取型S3,則要求最短訂閱30天;歸檔用的S3 Glacier,最短訂閱期限是90天;而成本更低的Glacier Deep Archive,要求至少180天。

其他公有雲服務商的歸檔儲存服務,最短訂閱期限大多為90天或180天,不過也有例外,像是Google Cloud的Archive Storage要求最短365天的訂閱期,是特別長的一個服務。

不過,在另一方面,歸檔儲存的基本目的就是長期保存資料,所以較長的訂閱期限門檻,一般來說不會造成太大問題。

而在成本方面,公有雲歸檔儲存服務的基本費用有3項:(1)儲存空間月租費;(2)上傳寫入資料的費用;(3)取回資料的費用。除了前述基本費用外,寫入與取回資料所產生的網路流量,有時也會另外收取費用。

其中在儲存空間月租費方面,目前各主要公有雲服務商的收費最低可達每GB 0.00099美元到0.002美元之間,只相當於LTO-8磁帶單位容量成本的1/2至1/5,算是相當有競爭力的價格。

至於在資料取回費用方面,通常又包含兩部分,一為發出取回的請求,每個請求都必須付費;另一為回傳資料的費用。多數服務商都設定了數個不同的回傳速度層級,並分級收費。

另外,要特別注意的是,公有雲歸檔服務取回資料的費用,要遠高於儲存空間月租費。以AWS Glacier Deep Archive為例,儲存空間月租費每GB只要0.00099美元,但取回資料的費用是每GB 0.0025美元(大批量模式)或0.02美元(標準模式),比月租費高了2.5倍與20倍。

這也意味著,雖然歸檔儲存服務的月租費很低,但如果用戶出現了取回資料的需求,且取回的資料量很大,光是取回資料的花費,便會上漲到相當於月租費幾分之一的程度。如果用戶急需取回資料,而選用了較快的回傳速度,費用還會直線升高,這些都是用戶必需考慮的隱藏成本。

6大公有雲長期歸檔儲存服務比較2:可用性與耐久性

公有雲歸檔儲存服務是建立在物件儲存系統上,因此,本身也繼承了物件儲存系統的可用性與耐久性特性。與其他類型的公有雲儲存服務相比,物件儲存其實是一種「高耐久性」但「低可用性」的服務,可以保證資料長期存放仍不致遺失,但停機、離線、暫時停止存取服務的機率,則相對較高。

以AWS為例,S3 Glacier與Glacier Deep Archive兩種歸檔儲存服務的耐久性,都和標準S3儲存服務一樣是99.999999999%,也就是11個9,可用性的服務等級協定(SLA)保證,也與S3同樣是99.99%。

相較下,區塊類型的EBS儲存服務特性截然相反,屬於「高可用性」但「低耐久性」,耐久性是年度故障率為0.1至0.2%,但可用性SLA高達99.999%。

這也就是說,如果在S3系列服務中存入1千萬個物件,則每年遺失的資料量還不到萬分之一個(或者說平均每1萬年才會遺失1個物件) ,幾乎可以忽略,但99.99%的服務可用性,代表每年至少有將近1小時的停機、無法存取的時間。

而換成EBS,每1TB資料的年度損失量可能會達到0.1、0.2%的比例(注意這是機率,並不一定會發生),但99.999%的可用性,可以保證每年停機、無法存取的時間只有5分鐘左右。

對於長期儲存歸檔應用來說,需要確保資料長期存放的完好,因而要求具有高耐久性。但由於平時很少有存取的機會,所以能忍受較低的可用性,因而物件儲存也就成為最合適的儲存類型。

至於其他公有雲服務商的歸檔儲存服務,就耐久性的規格而言,基本上也都是99.999999999%,11個9的等級,而這樣的組態也是當前公有雲業界,所提供的物件儲存服務標準耐久性規格。

而在可用性方面,阿里雲的物件歸檔儲存服務的可用性,與AWS同樣是99.99%,每年可能有近1小時無法服務的時間。

而Google Cloud與Oracle Cloud歸檔儲存服務的可用性,則是較低的99.9%等級,每年停機時間將增加到8小時以上。

至於微軟與IBM則是屬於離線型式,收到用戶的請求後,才能連接存取,而不是隨時可用。

6大公有雲長期歸檔儲存服務比較3:取回歸檔資料的等待延遲時間

使用標準的公有雲物件儲存服務時,用戶可隨時取回資料,存取延遲時間只有毫秒等級,用戶幾乎不用等待,就能取回存放的資料。而用於歸檔的物件儲存服務,則為了降低維運負擔與成本之故,通常都設定了以數小時為單位、較長的資料取回(retrieved)時間延遲,也就是說,當用戶發出取回資料的請求,到實際開始接收資料,必須等待數小時之久。這也讓公有雲歸檔儲存服務具備類似磁帶的運作特性,使用磁帶時,同樣也會因等待磁帶的上帶,而產生延遲時間。

不過,為了因應用戶急需取回資料的緊急狀況,一些服務商提供了不同等級的資料取回速度供用戶選用。例如,AWS S3 Glacier便提供3種資料取回速度的選項——快速、大量與標準,在標準模式下,取回資料的延遲時間通常是1到5小時,在大量模式下,延遲將增加到5到12小時,而在快速模式下,取回資料的延遲只有1到5分鐘。AWS也為這3種資料取回速度分級收費,延遲越短的等級,收費也越貴,快速模式的回傳請求與回傳費用,是大量模式的數倍甚至10倍以上。

要特別一提的是Google Cloud的歸檔儲存服務,提供低於1秒等級的資料取回速度,與Google Cloud更高階的近線(Nearline)與冷線(Coldline)儲存服務相同,當用戶發出取回歸檔資料的需求後,幾乎不用等待,便可收到資料。

除了提供特別快速的歸檔資料取回速度外,Google Cloud歸檔儲存服務的資料取回計價分級方式,也與眾不同。多數服務商都是依照回傳延遲速度分級收費,而Google Cloud則是依照取回的資料量分為3級——每月1TB以下,每月1到10TB,以及每月10TB以上,量越大、費用越便宜。因此,我們可以解讀為,或許是Google Cloud是主要公有雲服務商中,最晚推出歸檔儲存服務者,因而特意採取了有別於其他服務商的資料取回收費策略,以便形成區隔。

6大公有雲長期歸檔儲存服務比較4:安全性功能

公有雲歸檔儲存服務是從物件儲存服務所衍生,基本上也繼承了物件儲存服務的安全性功能,都能提供存取管制、加密,以及一寫多讀(WORM)等3種功能。

熱門新聞

Advertisement