iThome
現今大資料是最熱門的議題之一,也有人將大資料比喻為推動人類社會發展的「新石油」,不過東吳大學數學系助理教授吳牧恩卻認為,目前「大」資料的定義仍含混不清,「任何東西只要冠上大資料就很厲害的樣子,但其實就只是資料分析」。
另外,他也認同臺灣大學資訊工程學系特聘教授林智仁老師的說法,「當個人的儲存設備裝不下時,就稱為大資料」,如有些人認為3GB的文字檔,就算大資料,不過,對於用Hadoop工具的人,分析300GB的文字檔也不成問題。
因此,吳牧恩表示,資料分析的目的就在於預測事件,就算是分析「小」資料,也能得到很好的結果。他說,不論分析資料量的大小,長時間分析資料的人,就是能稱之為資料科學家。
在資料分析方面,吳牧恩專精於預測市場,以預測臺北市長選舉為例,如透過將柯文哲、連勝文各設定為一檔股票,每張股票的價值介於0至1之間,2張股票的價值相加等於1,而每張股票的價格,也就是等於當選的機率。
當越來越多人認為柯文哲會贏,就會有更多人購買這張股票,導致此股票在市場上的價格上升,也代表其當選機率會越來越高。而對設計此預測市場模型的科學家來說,最重要是設計出的模型,能確保每個人都能誠實地去賭,也就是若預測連勝文會贏,就會買進此股票,而非為了其他投機的原因,如此一來,研究人員就可以蒐集到正確的資料。
吳牧恩不光透過預測市場,蒐集到最新的民意,他在中央研究院資訊科學研究所參與研究案中,也接到一位來自於澳門,研究金融的教授求助,這位教授在金融海嘯期間,自美國華爾街取得其中5天的整體市場選擇權交易的資料,但這批資料量太大有300GB,已超過專精金融領域的教授可以處理的範圍,因此求助於中研院,希望能協助整理資料。
吳牧恩表示,跨領域合作最大的困難為,因缺乏足夠的金融知識,在溝通上會產生難以互相了解的問題,要重新建立知識背景還要花很長時間,他說,「就算請了名師也不一定能很快學會。」
而在分析選擇權資料方面,就算已經知道每一個欄位代表的意義,但仍無法判斷例如最佳價格和完整價格(Full Price)之間的區別。另外,由於選擇權的資料結構相當複雜,包含不同的結算週期,如月結算、日結算,還分為買權與賣權等,吳牧恩表示,像此複雜的資料結構,也會增加分析資料上的困難。
熱忱是能精準分析資料的關鍵
吳牧恩表示,資料科學家在面對複雜的資料結構時,最需要熱忱,一旦透過分析資料,而發現教科書上未出現的事實,此成就感會驅使資料科學家逐步解決所面臨的困難,他說,「雖然一開始很痛苦,但一旦上癮了就停不下來。」
不光要有熱忱,他說,資料科學家也需有好的理論基礎,如數學、統計、資料探勘(Data Mining),與具備好的實作能力,如熟悉程式語言撰寫(Hadoop)等,他也強調,IT人在分析資料時,擁有跨領域能力相當重要。另外,吳牧恩表示,在解讀資料時,最常遇到的迷思就是會陷入自己的思考胡同中,只關注到一個面向,唯有不斷地累積經驗,才能更為精準地解讀資料。
最後,吳牧恩表示,數學是所有學科的基礎,只要將數學學好,要做數學模型或者其他應用,上手的速度都比較快。
相關報導請參考:「大資料三部曲之3|資料科學在臺灣」、「大資料三部曲之2|資料科學走入企業」、「大資料三部曲之1|顛覆傳統的大資料處理新思維」
熱門新聞
2024-11-18
2024-11-12
2024-11-20
2024-11-15
2024-11-15
2024-11-19