巨量資料
Big Data

巨量資料指在一個資料集中的資料非常龐大,遠超過傳統常見資料庫管理工具所能處理的資料量。例如一個資料集擁有高達數10TB,甚至數PB的資料量。因為資料量大,也造成了資料擷取、儲存、搜尋、索引、分享和分析時的處理難度。


巨量資料(Big Data)指在一個資料集中的資料非常龐大,遠超過傳統常見的資料庫管理工具所能處理的資料量。例如在一個資料集有高達數10TB,甚至數PB的資料量。因為資料量大也造成了資料擷取、儲存、搜尋、索引、分享以及分析時的處理難度。

過去大多是科學研究會遇到這樣巨量資料的挑戰,例如高能物理分析、氣象預測、基因分析、生物研究、網路搜尋、財務或商業資訊分析等,學者為了進行複雜現象的模擬和預測,經常利用平行運算或分散式運算技術來處理這樣大量的資料分析工作。

但是,現在也有越來越多提供運算服務或儲存服務的網路服務業者或IT廠商,使用巨量資料來描述他們所遭遇到的挑戰,例如Google的搜尋服務、Flickr的圖片服務、Facebook的各種社交服務等。再加上行動裝置普及後,許多新型態的資料蒐集工具也產生了大量資料,例如相機、麥克風、RFID讀取裝置、無線網路感應等,使用這些裝置提供服務的業者也同樣面臨了巨量資料的處理挑戰。

特色 企業高度e化帶來巨量資料的挑戰
目前常見的巨量資料例如像網站Log記錄、RFID資訊、感測器網路資訊、社交網路資料、網際網路文件、網路搜尋索引、客服中心呼叫記錄、天文資料、大氣科學分析、基因資料、生化分析、複雜或跨學科的科學分析、醫學記錄等。

不只科學研究或網路服務業者會遇到巨量資料的挑戰,一般企業電子化以後,也擁有越來越多的資料量。例如義大醫院2004年4月成立後採取全面無紙化的策略,所有醫療影像,包括X光照片、斷層掃描等資料,甚至在導入電子病歷和心血管系統後,5年內資料暴增了90倍,從2TB暴增到180TB,義大醫院預估,再過5年,資料量甚至會達到PB等級。

特色 用NoSQL技術解決資料庫暴量挑戰
這樣數10TB甚至是PB等級的資料量無法一次儲存在單一硬碟上,必須分散儲存,一般程式常用的關聯式資料庫架構處理這樣龐大資料時的效率不佳,所以,最近出現了一種通稱為NoSQL資料庫的技術,用來解決巨量資料的挑戰。

過去為了解決資料成長的擴充需求,傳統商用關聯式資料庫必須透過資料庫叢集技術才能解決,但這必須投資高額軟硬體設備,網路業者為了解決PB等級的資料儲存和擴充問題,開始研發建置成本較低的分散式開源資料庫,也就是所謂的NoSQL資料庫。

像是Google自行研發的BigTable就是最好的例子。其他如Amazon、Yahoo、Facebook、Twitter也都投入這類NoSQL資料庫的研發。甚至連微軟Azure雲端平臺也使用了NoSQL技術來存取資料。 臺灣也有遊戲業者改用NoSQL資料庫來解決每天2GB的資料庫成長量。而像Facebook也開發了一套NoSQL資料庫Cassandra,在600多個運算核心的叢集系統上,儲存了超過120TB的站內郵件資料。

隨著巨量資料的需求日益普及,傳統資料庫軟體也開始採用NoSQL技術,例如甲骨文在2011年初發布了MySQL 5.6.2正在開發中的功能,納入了NoSQL技術中的memcached 分散式資料庫,可以透過Key-Value架構來記錄資料以加快巨量資料的存取速度,不過目前只能支援一張資料表。文⊙王宏仁

熱門新聞

Advertisement