幾個禮拜前,我們報導一則關於eBay如何分析非結構化資料的新聞,當時我看到稿件上寫著eBay的系統每天的資料成長量是50TB(Terabyte),趕緊把記者叫了過來,請他再次確認這個數據的正確性。雖然說eBay是全世界最大的網路拍賣公司,但一天50TB的資料增長量,畢竟還是一個很大的數字。
再度檢查之後,確認了50TB這個數據是正確的。每天都增加50TB的資料,那麼一整年下來,eBay累積的資料量起碼就有17.8PB(Petabyte)。事實上,eBay每天所處理的資料量,已經是PB等級的了。對很多公司而言,這簡直是一個天文數字。
eBay的商品查詢每天都有數百萬次,資料庫系統1天就多了1.5兆筆新記錄,資料量加總起來平均每天就增加50TB。eBay分析平臺資深總監Oliver Ratzesberger指出,2002年的資料量是10TB,2009年就成長到9PB,近2年資料量幾乎是以每年2倍的速度在成長。
資料量成長快速,不只是儲存系統得大幅擴張,隨之而來更大的挑戰在於資料的分析與處理。為了分析使用者行為,eBay有5千多項的商業分析,因此每天得面臨50PB資料量的分析處理,而這樣的情況就是近年國外熱烈在討論的新興議題──巨量資料(Big Data)。
如同eBay每天要分析的50PB資料,這樣的資料運算規模已經超乎傳統資料庫軟體的限度,需要仰賴新型態的資料處理技術,才有辦法因應如此巨量資料的挑戰,因而就衍生出了巨量資料這樣的應用需求。
不只是像eBay這種超大型網站會面臨這樣的挑戰,中華電信在分析顧客使用行為時亦面臨巨量資料的挑戰,尤其是在資料分析的過程中,原始資料需要經過轉換,而這一轉換就使得資料量又再加倍了,若透過傳統的作法,則因技術的限度而無法長期深入分析。因此中華電信就自行開發「大資料運算平臺」,以因應巨量資料分析的挑戰。
近年來企業系統的資料量高速增長的其中一個原因,在於非結構化的資料增加了。像是醫院,醫療影像、病歷轉為全面電子化之後,資料量就會暴增。例如以電子化醫院為目標的義大醫院,開業7年內資料量成長了60倍,從2TB暴增到120TB,預估5年後資料量就會達到PB等級。
未來資訊爆炸只會更趨於劇烈,甚至可說是資訊大爆炸。2010年全球資料量就增加70億GB,幾乎是美國國會圖書館典藏資料的4,000倍,而Facebook網站上,每個月使用者分享的資訊超過了30億則。
企業未來只會想要蒐集更多有關於顧客的資料,以及各式各樣的情報,想辦法掌握顧客行為、市場脈動,而這樣的發展勢必就會面臨巨量資料的議題。不過,在資料爆增的同時,儲存成本也持續降低,資料儲存、處理的技術也在進步,企業還是找到了一些方法來解決巨量資料的問題,請見本期封面故事的分析報導。
此外,本期新增「CIO觀點」專欄,我們希望透過這個單元讓資訊主管發表觀點、提出建言。在本期,屏東基督教醫院資訊長杜奕鋒就直言,血汗醫院的問題關鍵,在於醫療業必須更重視資訊的應用。這個單元歡迎資訊主管踴躍投稿,讓臺灣的IT環境變得更好。來稿請寄editor@mail.ithome.com.tw。
吳其勳/iThome電腦報周刊總編輯
merton@mail.ithome.com.tw
專欄作者
熱門新聞
2024-11-25
2024-11-15
2024-11-15
2024-11-29
2024-11-28
2024-11-25