開源大數據技術Hadoop,在今年剛好滿十歲。在大數據的第一個十年,Hadoop成功地讓大數據成為最被看好的技術,這股大趨勢,不僅影響資訊科技的走向,更成為商業熱烈討論的議題。

之所以如此,一方面是隨著網際網路、雲端運算、智慧行動裝置的普及,使得Google、Facebook、Twitter等大型網路公司的用戶數量,呈現爆炸性成長,為了應付全球用戶的規模,這些知名網路技術公司紛紛投入大數據技術,使得大數據成為頂尖技術的指標,瞬間成了搶手的當紅炸子雞。

另一方面,這些網路公司不僅是採用Hadoop這樣的開源大數據技術,更雇用軟體高手開發符合自己需求的大數據技術,再將這些大數據軟體的程式碼開源。如此一來,既吸引更多高手加入開發,亦回饋開發社群,而這樣的效應,也使得大數據開源技術的發展,如火如荼,至今與Hadoop相關的開源軟體已超過一百個,形成龐大的Hadoop生態圈。

在接下來的第二個十年,大數據將會如何發展呢?今年中,我參加在大數據領域頗負盛名的Strata & Hadoop World技術大會,原本我期待這場以大數據技術Hadoop為名的技術會議,主要探討的議題,應該圍繞著Hadoop生態圈的開源大數據技術;然而,在兩天的大會主題演講,不論上臺的是Google、Microsoft這樣的國際大廠,或是百度、阿里巴巴、螞蟻金服、小米等中國網路大公司,談的都是人工智慧(Artificial Intelligence,AI)、機器學習(Machine Learning,ML)、深度學習(Deep Learning,DL)等AI議題。

縱使那兩天的下午議程當中,仍有很大的比例,在探討大數據即時分析、串流運算等議題,然而大會主秀——通常是科技公司展現實力的主題演講,卻是不約而同談AI、ML及DL等技術議題。

在這些原本就是大數據技術領頭羊的眼中,很明顯地,人工智慧、機器學習與深度學習是大數據的下一步,也是大數據第二個十年的兵家必爭之地。

然而,邁向第二個十年後,大數據就不再重要了?其實並不然,這些技術依然重要,只是下個十年的發展,將是以AI為導向的大數據。關於這部份,我們可以從催生Spark、Mesos的柏克萊AMPLab實驗室來觀察。

在大數據第一個黃金十年的後半段,以微批次串流運算技術竄紅的Spark,引領風騷,而Spark的誕生地——柏克萊大學AMPLab,卻將在2016年底吹熄燈號。AMPLab由兩位擁有軟體創業經驗的教授主持,在目前的6年計畫期間,推動許多開源軟體研究專案,最知名的當屬分散式資源管理系統Mesos、串流運算平臺Spark、分散式記憶體儲存系統Alluxio(之前稱為Tachyon),在個別領域都居於技術領先的地位。

既然AMPLab有如此重要的研究貢獻,為何結束呢?因為柏克萊實驗室的傳統,普遍以5至6年投入研究,解決一個重要的問題,如今AMPLab已經完成了階段性使命:打造開源大資料分析技術,接下來,他們將以新成立的實驗室RISELab,解決大數據的下一個新問題。

新問題是什麼呢?從實驗室的名稱Real-time Intelligent Secure Execution,即可看出端倪。在上個階段,AMPLab是從大數據批次資料處理技術,發展至大數據分析技術,而下個階段的RISELab,則要克服即時資料處理的問題,發展出即時決策的應用。他們的目標是,研發出比Spark的反應速度快100倍、輸出快1000倍的新一代大數據技術,並且結合線上機器學習與更自動化的演算法,在確保資料加密安全與隱私,且不犧牲效能的情況下,從即時資料中做即時決策。

未來6年RISELab能否達成目標,尚無人能知。但很肯定的是,大數據的下一步,是以AI為導向的新一代大數據。

專欄作者

熱門新聞

Advertisement