近日Hadoop關鍵開發團隊Hortonworks旗下專家在臺分享Hadoop近期變革,並揭露核心分散式檔案系統HDFS的4大發展方向。
日本Hortonworks解決方案架構師蔣燚峰表示,Hadoop是美國Yahoo在2004年開發出來的大資料平臺,在這10年之間變化非常大,現在的Hadoop平臺上不再只是HDFS和MapReduce這兩大系統而已,Hadoop也可以執行不同類型的資料處理流程,像是即時性(Real-time)、交互式(interactive)或是記憶體式(In-memory)的資料處理。他說,Hadoop社群貢獻的程式碼行數也在這兩年間大幅暴增,反映出越來越多企業已經接受並採用Hadoop,這也將促使Hadoop平臺的進化更快。
2011年美國Yahoo的Hadoop技術部門獨立成Hortonworks公司,專門從事Hadoop大資料平臺的開發和開源推廣,並提供技術支援。Hortonworks已從最初24名工程師,發展成為一家全球近800名員工的軟體公司,並在去年底成為股票上市公司。目前Apache Hadoop開源專案中,有三分之一的核心開發者是Hortonworks的員工,Hortonworks也是貢獻最多程式碼的公司,是足以左右Hadoop發展的關鍵開發團隊。
蔣燚峰表示,目前Hadoop主要演進聚焦在HDFS和YARN架構上。HDFS(Hadoop Distributed File System)是Hadoop平臺中的分散式檔案系統,可用來提供高擴充性的儲存架構,如日本Yahoo的Hadoop叢集多達上千臺節點,HDFS儲存容量也有近55PB。YARN則是在Hadoop2.0版本中才出現的資源管理架構平臺,能讓Hadoop平臺同時執行MapReduce、Spark等多個應用,並統一資源管理,實現多工作流。「YARN可說是Hadoop2.0的代名詞」他說。
近年HDFS的進化將聚焦於企業功能上,蔣燚峰表示,包括Namenode的HA高可用性架構、檔案系統快照、HDFS和NFS串接閘道,以及資料加密機制等四大面向,例如2年以前,Hadoop叢集的Namenode只能部署在單一機器上,容易因當機而導致整套Hadoop失效,但是現在Hadoop已經可支援在兩臺伺服器上建立Namenode備援架構,當其中一臺當機時,會自動啟用另一臺主機接手。檔案系統快照功能則要能對整套分散儲存系統進行快照,來執行資料保護與災難備援。第三發展是讓NFS網路硬碟能掛上HDFS系統,甚至能將HDFS上的資料夾串連到其他客戶端伺服器上,讓外部資料更容易自動複製到Hadoop平臺內使用。資料加密機制則是要讓使用者能指定一個
目標是打造出開放的企業級Hadoop
Hortonworks目前主要產品是Hortonworks Data Platform(HDP),已可支援28個Hadoop平臺上的不同套件或模組,蔣燚峰表示,最終目的是要打造出一個開放的企業級Hadoop產品(Open Enterprise Hadoop)。
蔣燚峰表示,HDP是唯一一個同時支持Linux和Windows的Hadoop產品,在治理面,資料從進到系統後的所有處理環節都經過統一的管理,Hortonworks提供專門做資料治理的Atlas服務,讓企業用API串接HDP組件或外部工具,透過關鍵字搜尋到資料的每個來源,在維運面,透過統一儀表板介面管理上千臺機器,也可提供自動預載功能,在雲端服務平臺上自動啟動所需的VM。
不過,Hortonworks並非要開發出一套自有的Hadoop版本,蔣燚峰強調,HDP堅持採用百分之百的開源Hadoop版本,而不對社群版有任何客製化修改。「Hortonworks修改的程式碼都在Hadoop社群的基礎架構與管理下開發,就像是Linux一樣。」他說,沒有任何一間公司可以超越整個社群的力量,也唯有將所有程式碼都開源,所有合作夥伴才可以容易地讓自家產品整合HDP。
若遇到Hortonworks協助導入的企業有客製需求時,蔣燚峰表示,也會將需求提供給Hadoop社群,或將自己修改的程式碼貢獻回社群,成為社群版本的功能,而不會變成私有功能。
熱門新聞
2024-12-08
2024-12-10
2024-12-08
2024-12-10
2024-11-29
2024-12-09