近年來大資料(Big Data)的口號喊得很大,但我對大資料一直有個疑惑:究竟大資料與過去紅極一時的商業智慧(Business Intelligent)、資料探勘(DataMining)等資料分析技術有何差別?到底是相似,還是截然不同?

去年底我遇到Hitachi亞太研發中心總經理Naoto Matsunami,聽完他介紹Hitachi研發的幾項大資料應用,我不免向他請教心中的疑問:大資料跟過去的資料分析技術有不同嗎?結果有可能是我的問題太過籠統,又或是日本研發人員一貫謹慎,他思考好一會才回答我:有部分是延續過去的資料分析技術,但又有部分是全新的挑戰。

他以臉孔辨識技術為例,Hitachi最新的技術已經可以做到1秒鐘辨識3千6百萬個臉孔,並且允許像素只有60×60的低解析度圖片,這主要是辨識與分析技術持續精進的結果。這樣的技術已經達到快速搜尋監視器畫面的需求,然而若要進一步達到預防犯罪的效果,就需要即時處理大量監視器的影像畫面,那麼光是臉孔辨識技術的精進也無法達成,而必須再結合大資料的處理與分析技術。他很認真的說,快速產生的龐大資料量,帶來很高的技術挑戰。

資安軟體公司趨勢科技也面臨類似的情況,病毒、木馬、惡意程式與日俱增,近年來更呈現6年增加10倍的爆炸性成長,由2008年大約2百萬個惡意程式,在6年內增加到近2億個。所以,在面對處理劇增的資料的過程中,趨勢科技也就自然而然藉助機器學習等大資料相關技術,克服即時處理、分析巨量資料的挑戰。

近年來許多研發單位都因為面臨類似的狀況,而相繼採用大資料技術,以解決資料量大、資料產生速度快,以及資料類型多樣的挑戰。然而,對一般企業而言,要擁抱大資料則是困難多多,一來是不像上述的例子是被大量資料追著跑,必須立即採取對策;再者,企業資訊部門擁有的技術能量,通常也不能跟產品研發單位相提並論;甚至,連第一步要如何取得資料,就有重重難關了。

然而,企業也不必太悲觀,而自外於大資料。或許只是企業擁抱大資料的方法,要與上述的例子有所不同罷了。

去年我們採訪中國騰訊雲總經理陳磊時,他就不斷提及在Google所學到的邊做邊優化的哲學。對於大資料,不論背後有多麼高深莫測的技術,他建議先從小處著手,以唾手可得的資料先做點分析,從中找到資料分析的價值,一旦老闆肯定了這個價值,IT部門就有辦法取得更有價值的商業資料,讓資料分析可以大展身手。他說騰訊雲一開始也只是試著分析網站的記錄檔,一路練兵,再發展成可提供大資料分析服務。

如同本期封面故事──「資料科學開始走入企業」所報導的104人力銀行的案例,他們先整理累積多年的資料,再利用開源的大資料技術,試著從中找到資料應用的新價值。結果,他們因此而推出兩項從資料分析出發的新服務,雖然這兩項服務所運用的資料分析技術不算頂尖,但若不是從資料分析出發,可能也做不出這樣的服務。

而一旦資料分析的旅程展開了,對於資料分析技術的運用持續精進,假以時日或許就能挖到資料的金礦,找到令人亮眼的商業價值。

專欄作者

熱門新聞

Advertisement