如何應對數量不斷暴漲、以檔案型態存在的非結構化資料,是當前企業儲存應用所面臨的主要挑戰之一。

目前擁有TB等級資料量的中小型企業已不罕見,一些大型企業累積的資料量更是已進入PB等級領域,而且資料量還在持續膨脹,依據研究機構ESG的調查,許多企業的資料量是以每年20%甚至50%幅度增長,只要1~2年時間,累積的資料量便會翻倍。而在這些增加的資料中,絕大多數都是以各式各樣檔案型態存在的非結構化資料,因此儲存與處理這些資料的負擔,也就落到了專用於檔案儲存的網路附加儲存設備(NAS)上。

力不從心的傳統架構NAS

傳統的企業級NAS通常由1~2臺NAS控制器,加上與控制器串接的擴充磁碟櫃組成,透過雙控制器構成的高可用性架構,可在其中一組控制器失效時提供持續的服務,而藉由在控制器後端串接更多的磁碟櫃,則能提高系統的可用儲存空間。

但這樣的系統組成,在面臨巨量資料的挑戰時,卻日漸顯得力不從心,無法跟隨資料量的增長,同步提升需要的儲存空間與存取效能。受限於基本架構,傳統NAS在效能與容量的擴充能力兩方面,都存在難以突破的瓶頸。

容量擴充瓶頸

在容量擴充能力方面,傳統NAS雖可藉由在後端介接磁碟櫃來增加容量,但1~2臺NAS控制器所能提供的後端I/O埠數量與I/O控制晶片效能均十分有限,這也限制了允許承載的磁碟總數量,以當前產品來說,即使最高階的雙控制器NAS系統,後端承載1,000臺左右的硬碟便已是最高上限。如果用戶有更大的容量需求,便只能添購第2、第3套NAS,但這也同時增加了管理複雜性。

效能擴充瓶頸

NAS的整體系統存取效能,是由NAS控制器的處理器效能、I/O頻寬與後端介接的磁碟裝置效能所決定,對傳統架構NAS來說,當到達NAS控制器規格允許的效能上限後,就只能換掉整臺NAS控制器,代之以更高階的控制器,才能進一步提高效能,這種透過更換更高階控制器來提升效能的方式,也就被稱為「Scale-Up」縱向式擴展。

但問題在於,即使換了更高階的NAS控制器,也有達到其效能上限的時候,屆時又得再更換新的控制器,才能提高效能,如此周而復始,既不方便又缺乏彈性。

過去由於需處理的資料量相對有限,傳統NAS前述瓶頸帶來的問題還不顯著,不過到了今日,隨著資料量增長速度不斷加快,傳統NAS受限於麻煩、笨拙的升級方式,難以隨著資料量的增長靈活的擴充效能與容量,便會造成用戶的許多困難。為了克服這些問題,一些廠商開始將叢集式NAS引進企業應用。

Scale-Out架構趁勢而起

叢集式NAS的應用已有相當長的歷史,不過以往大多應用在能源、影視媒體、國防與科學研究等特定領域,對前述幾種產業的使用者來說,需要的是能配合高效能運算、多媒體串流等應用的高性能、高可靠性與大容量的檔案存取服務,由於傳統NAS無法滿足這樣的需求,於是便轉而透過叢集式系統,結合多個節點來得到需要的效能、可用性與容量。

而到了今日,已有更多領域的企業必須面對傳統NAS難以因應的極巨量資料儲存問題,這也讓叢集式檔案存取系統的應用,跟著擴展到一般企業環境。

叢集式NAS可跨多個控制器節點建立單一命名空間,並將前端的存取I/O需求,分散到叢集中的多個控制器節點上,藉此統合多個NAS控制器的運算能力與儲存空間,在協作下共同對外提供存取服務。

所以若將更多的NAS控制器納入叢集中,不僅能增加可用容量,存取效能與I/O連接能力也會跟著線性增加,這就是所謂的橫向式(Scale-Out)擴展。透過這種擴充方式,叢集式NAS相對於傳統NAS可有幾項優勢:

效能隨著擴充節點而線性增長

如前所述,叢集系統可將存取作業分散到多個節點上,匯聚多個節點來共同處理前端的每個I/O需求,所以只需向叢集中添加更多的NAS控制器,即可匯聚更多的處理器效能與I/O傳輸頻寬,從而讓整體存取效能達到隨著系統擴充而線性增長的效果。

更大的系統規模

由於叢集式NAS內含的控制器節點可多達10多臺,甚至上百臺以上,因此可用於連接後端磁碟裝置的I/O埠與I/O控制器數量,也遠高於傳統雙控架構NAS,後端可承載的磁碟機數量大幅提高,如某些Scale-Out架構NAS宣稱的磁碟機數量上限,便可達到7,000臺甚至1萬臺以上。

靈活的擴充能力

只要向叢集中增添控制器節點與磁碟裝置數量,即可匯聚出需要的存取效能或儲存容量,而無需替換掉舊有的控制器與磁碟裝置,擴充升級的靈活性遠高於傳統雙控架構NAS。

使用叢集檔案系統建立Scale-Out NAS

有多種方式可以建構出具備Scale-Out特性的NAS,不過目前最普遍採用的是透過叢集檔案系統(Clustered File System)所建立多節點的叢集式NAS。叢集式檔案系統是分散式檔案系統的一種,可協調多個控制器節點,提供具備高效能、高可用性或負載平衡特性的檔案共享存取服務。

目前已有的叢集檔案系統不下數十種之多,不過許多都是針對特定應用環境而開發,Client端必須透過特定API或協定來存取叢集,不適合作為通用檔案系統使用,如PVFS、Hadoop HDFS、Google GFS等,企業必須專門針對這類叢集檔案系統,開發或調整既有的作業平臺與應用程式,才能與這種叢集環境整合。

因此較適合一般企業環境使用的,是那些可以支援標準的NFS、SMB(CIFS)協定(或透過Gateway介接提供NFS/CIFS存取、或以Linux的FUSE等方式存取)的叢集檔案系統,如IBM GPFS、IBRIX Fusion、Isilon OneFS等,藉由廣泛使用的NFS、CIFS等標準存取介面,這類叢集系統可相當容易的融入企業既有作業平臺與應用程式。


相關報導請參考「Big Data 引爆 Scale-Out NAS風潮」

熱門新聞

Advertisement