Big Data,大概是爆紅速度僅次於雲端運算的科技新名詞,過去一年來,雲端運算雖然還是很熱門的話題,但更熱門的是Big Data,情況就像幾年前廠商不約而同在談雲端運算一樣。

當初整個業界大談雲端運算,從上到下幾乎所有公司都能沾得上邊,不免令人質疑是在炒作議題,但事實證明雲端運算至今不只沒有成為泡沫,還有許多更進一步的成果。然而,遇到現今整個IT業界都在追逐Big Data議題,在相同的情境下還是不免要質疑:這是不是也在炒作?

其中最直接的質疑是:Big Data所指的巨量資料分析,已經不是什麼新鮮事了,大量資料的處理與分析應用早就存在,許多企業採用資料倉儲就是為了解決大量資料處理與分析的難題。這種情況就如同當初雲端運算被擴大解釋為網頁電子信箱,搞得大家一頭霧水,不免覺得「原來雲端運算早就存在,不過是舊瓶裝新酒罷了。」但從雲端運算現在的發展狀況來看,這當然是個誤解。

Big Data的誤解,其實從中文翻譯就已經造成了。Big Data真是一個不好翻譯的名詞,很難從中文找到一個適切的譯名,任何一種翻譯方法,都只能表達部分意思,因此勢必就會造成另外一部分的誤解。

Big Data有3種特性:Volume、Velocity、Variety,Volume指的是資料量龐大,而到底資料量要多大才算呢?這其實沒有一定的界限,不過有許多企業已經面臨單日資料量以數十、數百TB的速度增加,而總資料量也達到了PB(Petabyte)等級,這樣的資料量已讓傳統的資料庫難以處理;Velocity是指資料增加的速度越來越快,諸如行動運算、社交網路的風行,使得資料增加的速度比傳統的企業應用程式來得快很多,一旦資料增生速度越快,資料處理、分析的速度也就得跟上;而Variety則是指資料的多樣性,我們現在上網不是只看看資訊,同時我們不斷在產出資料:貼照片、貼影片、這裏按讚、那裏寫個幾句,另一方面,IT深入生活中的各個層面,各式各樣的監控器、感應器也不停地產出機器資訊,資料的型式已不像過去那麼單純了。

這3個資料特性,已經是現在式,而不是未來式。然而該如何解決日漸緊迫的巨量資料處理問題呢?像Facebook、Twitter這樣面臨資料量大爆炸的網路公司,開始用Hadoop、NoSQL等新興技術來解決問題。

Hadoop是分散式處理技術,它立基於叢集架構,因此可以使用大量便宜的伺服器,打造巨大的處理能力,並且可由水平擴充方式來加大處理能力,以應付更大的資料處理需求。

有了Hadoop這樣的開放原始碼技術,讓許多人不需購買大型的資料分析設備,也有辦法來分析大量的數據,例如日本藥廠透過分析Twitter使用者的留言,分析感冒、流鼻水等症狀的字眼,就能了解流行病的趨勢,掌握市場脈動;而在過去,如果你沒有可行的巨量資料分析工具,可能連想都不敢想要分析Twitter這麼一回事。

至於傳統資料分析廠商,也紛紛將資料分析平臺轉換為分散式處理架構,提供水平擴充能力,或是增加處理速度更快的資料庫技術,來應付Big Data的3種特性。這樣的發展也有助於企業因應未來的資料處理挑戰,對於已經採用資料倉儲的用戶,例如銀行業,就能順利移轉。畢竟,Hadoop仍是一個很新的技術,其中的技術門檻亦較高。

所以,Big Data不會是一個空談的議題,在技術上已經有諸多變革在發生了。不過,Big Data的挑戰不完全是技術層面的議題,更大的挑戰是在業務層面,甚至是管理面的問題,我們下回再來探討Big Data的商業議題。(請見第23頁)

吳其勳/iThome電腦報周刊總編輯

專欄作者

熱門新聞

Advertisement