大塊文化

在一個資訊爆發網路發達的時代,隨之而來累積了大量的數據,然而數據當中隱藏了各式各樣的商業價值。如今,不論是大型公司或是中小企業,都想盡辦法蒐集消費者或使用者的數據,運用新的技術來建立數據模型,幫助企業做出有利的決策判斷;用以建模的有效數據越多,模型越能發揮效用。但在大數據背景之下伴隨而來的是資訊安全問題,企業開始意識到數據的重要性,無論是和使用者相關的個人資訊,還是企業自身機密的運營數據,都是企業在網絡安全中必須被保護的對象。

若數據能夠有效地被蒐集及分析,就能像阿里巴巴(Alibaba)透過其建造的數據銀行來做分析,可以迅速在十一天內吸引到三百萬位消費者;電子商務巨擘亞馬遜(Amazon)使用「大數據」來預測顧客的行為,有效降低物流成本跟倉儲成本;在Google、微軟、IBM等企業,大數據的應用已經融入到各行各業。在生活中的任何環節裡,從科技業、醫療、保險、體育、農業等,都有相關應用,從數據中找到規律,歸納出目標方案或解決方案。

大數據基本四步

第一步──取得資料:當一間超商想要知道一位消費者的需求時,從消費者走進商店就開始從消費者身上取得資訊。這些資訊包含、但不限於:年齡、性別、購買商品、行徑路線等,就連上下班行走的路線,都可以成為店家拓展新店的參考資料,透過長期累計下來的資料預測未來的目標。

第二步──儲存資料:由於蒐集而來的資料量極為龐大,過往的儲存方式將不敷使用,無論是硬體容量或是記憶體都是問題,因此處理大數據時多半會使用分散式的技術進行處理,藉由將資料分割或是備份儲存,來突破記憶體不足的狀況。

第三步──運算資料:蒐集資料就是為了達成當初所設定的目標,可以透過分類、回歸、排序、關聯等分析方式找出有用或是規律的資料,並運用在決策、演算法、人工神經網絡等模型進行計算。

第四步──數據視覺化:運算後呈現出來的結果對一般人來說過於複雜,若數據沒有進行良好的視覺化,對一般大眾在閱讀解釋上將造成一定的障礙,因此需要透過一些資料視覺化的工具,將資料整理成大眾可快速理解的圖表,將大數據發揮最大的功用。

資料品質

品質改善是整體品質管理的重要步驟,不論是對一個組織團隊或是企業本身,都是一個永無止境的過程,對大數據有初步的瞭解後,我們知道資料品質改善也是相當重要的課題。資料品質的好壞,就像在買A跟B兩個品牌同一種類型的產品,我們會去比較哪一個品質較好。資料也是一樣,會有品質好壞之分,所以瞭解大數據對品質改善的影響是很重要的,那前面提到的永無止境的過程指的是甚麼?當一個團隊為了達成目標或是解決問題A使用了模型,分析現有的數據/最佳化後,將結果提交成一個實際的方案。方案執行後,在過程中或是得出某些結果時,會產生新的問題,也就是新的數據,而這些數據將會回到模型裡執行,又或是需要一個新的模型來解決問題,形成一個循環。

大數據=交易+互動+觀察

資料的真實性、信賴度、準確性都與資料的品質相關。在一般人眼中看來,大數據就是一堆資料,但內容中可能存在不少錯誤的訊息跟不實的資訊。那為什麼會出現品質如此不佳的資料,原因有很多,可能是人為疏失、技術錯誤、硬體故障或是惡意的企圖。

資料來源可能不可靠

並非所有網站上的資訊都是值得信賴的,像是俗稱的內容農場網站(content farm),主要是為了圖利部分商業利益或是特定人士,取得網路上的流量跟散播量為目標,所使用介於合法或是非法間的模糊地帶,產生大量且品質不穩定的資訊,或是有些社群網站會遇到有心人士惡意散播不實訊息,雖然網站本身沒有問題,但是並不是所有頁面都是值得信賴的。

人為或技術

操作失誤或是硬體出錯,可能造成資料無法有效地正確傳送與接收,而用於傳送或接收資料的感應器可能會出現故障,這有一定的機率將錯誤的訊息記錄下來並傳送錯誤的資訊,還會要求在特定的時間點傳輸可使用的資料,但不穩定來源的資料也會讓統計或紀錄上充滿問題。

水面下的暗潮:暗數據

對於現有的數據,企業的保護一定也是嚴密周全,但是再多的嚴防保護,能確保有多少數據具備有效性和可用性?甚至有很多的數據是被忽略、不明確的,有時候可能覺得已經想得很完善了,但往往會有額外的狀況發生?這也間接地告訴我們,暗數據可以藏在任何環節裡,讓結果偏離現實。

暗數據其中的「暗」,是指那些未被發現、理解或者故意忽略的數據,就像宇宙中看不到、但確實會影響觀測數據的能量,被稱為「暗能量」。舉例來說,企業需要優化或重新利用過去的方案時,可能因為該方案時間拉得太長,相關數據無法被發現,無法在這些數據上研擬更合適的方案。當某用戶的舊電腦裡有幾百GB(Giga Byte)或是幾TB(Tera Byte)的檔案時,今天他想要從中找到一份資料,但已經忘記資料的位置、檔案名稱、什麼時候修改的,他可能只記得大概的內容。

從上述的案例可以發現,數據被忽略或是無法利用,但這只是暗數據的其中一環。又或者,企業在營運中產生大量的新數據,其中可能會有一大部分的數據沒有被即時發現而無法使用。

全球信息管理解決方案廠商Veritas Technologies,在二○一六年時發布一份《數據冰山報告》。該報告指出,五二%的數據是價值不明確的暗數據,三三%數據屬於對企業本身沒有價值的陳舊數據,一五%才是被判定為關鍵的業務數據。數據的儲存也是要成本的,刪除不必要的資料可以有效降低成本,所以優化的刪除策略也顯得重要,對數據進行分類、保留、刪除,可以減少暗數據的出現。

除了已經存在的暗數據,還有其他種類的暗數據,像是我們不知道漏掉的數據、我們知道但是忽略掉的數據、隨時間而異的數據、量測的誤差與不確定性、遺漏掉的關鍵因素。長期持續累積會導致暗數據囤積,大量且有效的數據跟不明確的暗數據混雜在一起,無法被認知,最後造成模型的偏差、決策的錯誤,進而演變成後續衍生的災難,所以暗數據的威脅不容忽視。

商業價值

暗數據也是充滿商業價值的。就像是一個坑洞裡蘊含著黃金,但是探進去看卻沒看到,這不表示裡面沒有,如果挖到了,那不就成了有錢人;遠處的森林中,如果有棵樹倒了,而我們沒有看到,就表示沒有樹倒下?暗數據也是如此,沒有看到不代表沒發生或是不存在,而且通常都是非結構化、非組織化的數據,在沒經過處理的情況下是很難被使用。但是找到暗數據,可以應用在AI模型的訓練、媒體研究、商業決策等。在這些尚未被分析的未知數據中可能含有潛在的商機,而這些數據也可能會產生出新的收益或降低企業內部成本,所以有越來越多的數據家、科學家、企業家、商業領袖嘗試投入到「暗數據分析」之中,期望能在其中找到更細微的商業形態、更準確的客群,以及運營的突破口。

對大數據跟暗數據的關係有了簡單的瞭解後,要如何解決大數據裡外的暗數據也成了首要任務。因為暗數據無所不在,以各種形式或狀況出現,一個暗數據的出現,就像在平靜的湖面上丟入一顆石頭,打破原有的平衡,水波的漣漪向周圍擴散,但是如果有很多的暗數據呢?在本書中有非常多的範例,以及確確實實發生過的事件,講述各種暗數據的出現所造成的影響。我們要怎麼避免?怎麼應對?怎麼去挖掘?怎麼去利用?No data, no value, and no AI. 但是好的數據才能造就優質AI;善用及發掘暗數據,也是產生AI的重要及必要條件!(摘錄整理自本書序言,作者/輔仁大學副校長、台灣人工智慧發展學會(TIAI)理事長謝邦昌,大塊文化提供)

圖片來源_大塊文化

 暗數據:被看到、被聽到、被測量到的,往往不是「真凶」 

大衛‧漢德(David Hand)/著;賴盈滿/譯

大塊文化出版

售價:400元

 作者簡介 

大衛‧漢德(David Hand)

英國統計學權威,目前是倫敦帝國理工學院數學系榮譽教授暨資深研究調查員。曾擔任倫敦帝國理工學院及公開大學統計學教授,為合格統計學家及多家學術機構成員,多次獲獎,學術成就非凡。除了常上媒體接受訪問,也曾協助警方調查科學詐欺案件。

熱門新聞

Advertisement