精誠資訊雲中心Big Data事業發展首席顧問陳昭宇表示,Hadoop 1.0版增加了Kerberos驗證、HDFS的Append功能、HDFS的HTTP存取等,已經具備了企業應用需要的重要功能。

Apache基金會也特別在官網上宣示,這是Hadoop專案的里程碑,代表著Hadoop已經為企業應用做好準備。

Hadoop專案的版本更新速度向來很慢,往往好一段時間才會改版。在1.0版問世前,主要有2個系列版本,0.20系列和0.23系列。0.20版是Hadoop先前的穩定版本,1.0版的前身正是0.20版系列,而0.23版本屬於開發版本,尚未穩定的新功能會先加入在0.23版系列中。

1.0版新增的關鍵功能包括了資安模式的強化、HBase資料庫套件內建了Append的支援、HDFS檔案系統支援HTTP存取,以及多項效能的改善。

在資安模式的強化上,過去Hadoop最為人詬病的是安全認證強度不足。Hadoop是由多套伺服器節點組成,過去是有授權機制,只有獲得授權的伺服器可以存取Hadoop節點上的資料,但是Hadoop沒有搭配驗證機制,無法驗證是否為真正獲得授權的伺服器。因而過去有一種存取資料的取巧作法,若Hadoop伺服器A授權給伺服器B具有存取權限,而伺服器C沒有獲得這樣的授權,但因為舊版Hadoop不會驗證伺服器的身分,所以伺服器C可以更名為伺服器B來取得伺服器A的存取權。

精誠資訊雲中心Big Data事業發展首席顧問陳昭宇表示,舊版設計原則只考慮作為內部專用系統使用,但是,企業應用時往往會將Hadoop作為企業IT架構中的一個分析平臺,並開放給多套應用系統存取,此時確認存取者的身分就很重要,否則沒有存取權限的應用程式也有可能讀取到限制存取的機密資料。1.0版增加了Kerberos認證之後,就可以與企業LDAP伺服器整合,來檢查存取者的身分。

第二項更新是檔案系統的改善,原本Hadoop底層的HDFS檔案系統的設計初衷是:資料寫入後不能修改,但是可以無限制地取用。可是這樣的設計與Hadoop資料庫系統HBase的功能衝突,HBase需要修改原本寫入的資料檔來插入資料,過去使用者得自行安裝第三方修補程式,才能順利執行HBase,1.0版中因而將HDFS直接內建檔案附加寫入(Append)的機制,解決了HBase的資料寫入需求。

另一項重要更新是HDFS對HTTP的支援。原本在HDFS檔案系統上的檔案,只能透過命令列指令或是透過應用程式控制API來存取,新版則能支援HTTP的讀取,只要透過一個網址,就能讀取到HDFS的完整資料,並且能遵循完整的HDFS安全規範,不過目前還未支援透過HTTP的HDFS寫入機制。

陳昭宇表示,透過HTTP來存取是許多開發者慣用的存取方式,如此可以更容易開發Hadoop應用,也更容易和其他網頁應用整合。陳昭宇認為,1.0版已經具備了企業應用需要的重要功能。

過去若要建置Hadoop平臺,支援上述新增功能,得自行安裝其他修補套件才行,而現在全都內建了,所以Apache基金會才會正式推出1.0版。

但是,陳昭宇認為,1.0版還有一項不足,那就是Hadoop叢集中,負責主控的Master節點只有1臺,還沒有HA的備援設計。目前只有Hadoop 0.23開發版本才支援Master HA機制,但因功能尚未穩定而沒有放入1.0版。

目前這個問題應不至於構成很大的困擾,不過,陳昭宇表示,因為Master只是負責分派任務,資料流動都是在運算節點中直接傳輸,因此Master節點的負載不高,再加上Master雖然是把所有任務調派資訊都儲存在記憶體中,但也會定期備份到磁碟系統上,所以,只要透過共享NAS系統,讓另外一臺備用伺服器可以存取相同的NAS磁碟,一旦Master節點的硬體損壞,也可以由備用伺服器開機接手Master節點的工作,頂多是損失了幾分鐘的資料落差。另外也可以透過硬體備援機制的強化,例如雙重硬碟的鏡像設計,來提高Master節點的穩定性。

相關報導請參考「巨量資料的頭號救星:Hadoop」

熱門新聞

Advertisement