大資料持續爆炸之下,許多國家紛紛急起直追,欲爭相趕上這個不容輕忽的趨勢。當臺灣政府仍在起跑點躊躇的同時,美國政府早在2012年就砸下2億美元,啟動了多項大資料國家級計畫來應戰,成為大資料發展的領頭羊。
然而,歐巴馬總統並沒有因此而鬆懈,今年1月,在一場公開演講之中,他提出對美國既有大資料發展的擔憂,並要求總統顧問John Podesta帶領總統直屬的科學與技術顧問委員會(PCAST),進行一個為期九十天的全面審查,來檢討美國過去這2年內的大資料政策成果。
PCAST在5月1日公開了審查結果,並提出一份大資料政策研究報告。報告中指出了大資料的3大機會點,以及3大疑慮,並以此向歐巴馬政府提出了6項政策建議。同時,PCAST也做了一項大資料隱私調查,調查結果發現高達8成的受訪民眾非常在意政府如何使用和收集資料,且對於相關資料收集的機構並不信任。
大資料發展,從政府的資料開放做起
美國政府的大資料發展要溯及歐巴馬更早推動的政府資料開放,早在2009年1月,歐巴馬上任後即簽署了「透明與開放政府」的備忘錄,宣示了三大施政準則,包括了政府透明、公民參與,與協同合作,目的是希望打造一個開放、透明的政府,而其中最重要的成果就是建立了「美國聯邦政府的資料平臺(Data.gov)」,將聯邦政府機關的資料開放,與全美人民共享。
跨出關鍵的第一步,啟動大資料研究發展計畫
政府資料開放後,這些資料量以驚人的速度成長。Data.gov在2012年累積來自172個政府機構的資料集,數量已經從2009年的47個,暴增至40萬個以上。歐巴馬很快意識到,面對如此巨量的資料,傳統的分析工具與技術早已不敷使用,必須要藉由政府力量來推動相關政策,才能加速大資料技術的發展。於是2012年3月,他跨出了美國大資料發展的關鍵一步,宣布了美國「大資料研究發展計畫」,目標是要讓美國政府能擁有更高的知識洞察與分析能力,來因應大資料時代的考驗。
總預算多達2億美元,六個聯邦政府機構攜手推動
這個大資料發展計畫的第一波計畫主要目的為強化分析大資料的技術與工具。6個美國聯邦政府部門共同編列了多達2億美元的預算,來改善大資料所需的技術與工具,包括美國國家科學基金會(NSF)、美國國家衛生研究院(NIH)、美國國防部(DOD)、美國國防部高級研究計畫局(DAPRA)、美國能源部(DOE)與美國地質探勘局(USGS)。這些機構推動的計畫主要分為開發工具技術和推廣學術領域兩個部分。
在開發工具技術方面,以美國國防部每年投入的2.5億美元為最大宗,其中有6,000萬美元用於大資料創新研究,來開發足以計算大量資料的軟體及工具,美國國防部希望能分析資料後,轉換成決策的依據。其下的高級研究計畫局也推動了一項四年計畫XDATA,每年預計投入2,500萬美元,來開發更先進的數學演算法,以處理分散式資料倉儲中的不完整資料,同時設計更有效率的人機互動工具,以滿足不同分析任務的需求。XDATA計畫也力推開源軟體,來提供使用者在不同應用環境下更彈性地處理大量資料。美國能源部則成立了大資料研究單位,邀請來自六個國家實驗室與七所大學的專家,共同開發新工具,用資料視覺化管理能源部內的超級電腦。
學術領域方面,主要是贊助各級學術單位進行大資料相關研究,像是美國國家科學基金會邀請了跨學科的研究人員,共同探討大資料如何改變教學領域,成立培訓小組,提供技術訓練,協助用圖像與視覺化處理複雜的海量資料,並鼓勵科學研究院設立研究學程,培育下一代的資料科學家與工程師。
其餘機構推出的大資料研究計畫包括了美國國家衛生研究院將多達200TB的千人基因組序資料上傳到亞馬遜網路服務(AWS)上,打造了世界上最大的基因變異資料庫,提供研究人員使用。而美國地質探勘局則表揚了John Wesley Powell中心,這個中心提供了多種科學家協作分析大資料的工具,來促進地理科學的發展,以及氣候變遷、地震復發機率及下一代生態指標等議題的深入研究。
另外,美國國家科學基金會與美國國家衛生研究院共同發起了「促進大資料科學與工程的核心技術」專案,來分析醫療領域的大量資料集,對巨量的醫療資料進行分析、管理與視覺化,從中提取可用的資訊,主要研究領域涵蓋了醫療與疾病相關的分子、化學、行為、臨床等。
然而,僅依靠政府的力量是不夠的,美國政府也邀請產業、學術單位與非營利組織一起跟上腳步,即時抓住大資料演變帶來的機會。私人企業開始贊助大資料的相關競賽,提供研究基金;教育單位設立相關創新課程;其餘團體,像是資料無國界組織(Data Without Borders),也提供資料收集、分析與視覺化的技術,幫助非營利組織。
大資料計畫擴展與延燒,從資料到知識
美國進入「大資料研究和發展計畫」的第二年,政府積極地呼籲各聯邦機構、私人企業、學術單位、州政府、非營利組織與基金會等,共同發展跨區域的大資料創新專案與合作關係。其中,美國國家衛生研究院在2013年4月,宣布將在FY14推動新的「大資料到知識計畫(BD2K)」總預算超過4,000萬美元。
「大資料到知識計畫」藉由政策、資源和標準化的推動,廣泛使用與共享巨量且複雜的生物醫學數據。技術方面,開發並傳播新的分析方法與軟體。教育訓練方面,不僅加強資料科學家、電腦工程師及生物信息學家的專業培訓,也設立了一個卓越中心,用來開發一般化的方法,解決生物醫學分析、計算生物學和醫學信息等問題。除了BD2K之外,NIH也同時推動了三項配套計畫,包括人類連接與大腦專案、癌症基因圖譜專案和PhysioNet專案。
將大資料知識加以應用,從資料到知識到行動
為響應歐巴馬政府對全國的呼籲,白宮科技技術政策辦公室(OSTP)、NSF,及來自美國網通研發計畫的其他機構,共同合作,推動「大資料到知識到行動計畫」,這個創新計畫訂立了幾個目標,包括推動大資料和分析技術與支援,教育和擴大大資料的所需人力,開發、驗證與評估大資料關鍵成果的應用程式,提高經濟成長、創造就業、教育、健康、能源、可持續發展、公共安全、先進的製造、科學工程和全球發展,最後將大資料獲得的新知識見解,發揮作用,並培育區域創新。
這一連串由政府推動的計畫,促進了源源不絕的創新應用,使大資料已經能夠對國家經濟、公共建設帶來深遠的影響。然而,隨著新興科技與技術快速發展,越來越多生活當中的資料,舉凡消費、談話、社交與一舉一動,都將被收集、儲存、分析與使用。也因為這樣,衍生了人民對隱私權保護的相關疑慮。究竟哪些資料被政府或者私人單位所收集,這些資料又被應用在什麼地方,這都是人民所關切的,也是歐巴馬政府將面臨的一項挑戰。
九十天的全面審查
為此,歐巴馬要求PCAST團隊展開九十天的全面審查,藉由詮釋大資料的新樣貌、大資料的變化,思考未來如何在鼓勵並推動這些創新技術發展的同時,降低對隱私權及美國人民價值的潛在風險,進而做出大資料的下一步政策建議。
找出大資料的新樣貌
今年月5月1日,美國政府在白宮官網上發布了長達85頁的研究報告,報告中說明了現今的大資料已經有所改變,不再只是大量而已,它甚至是多面向且變動速度之快的資料,傳統的資料收集與分析模式已經不夠。隨著網際網路應用、穿戴技術、先進的感應監測技術的不斷演進,現在的資料來源除了公眾網路、社交媒體、來自州政府的紀錄與數據、來自商業交易的數據、地理空間的數據等,還包括了新的資料收集來源,像是感應器、相機、地理間觀測技術,這些意味著人們的生活已經處處皆是資料的收集管道,而這樣的資料量也將是前所未有的龐大,需要更高更複雜的分析技術與能力。
相較於以前的資料,現今的資料種類與來源又更加的複雜,導致資料型態的多樣化程度遠高於過去。資料種類分為原生資料與模擬資料,原生資料來自電腦或系統的輸入,像是電子信箱、瀏覽器、GPS地理資料等。而模擬資料則是從物理世界所發散出來的。未來將有越來越多的模擬資料能夠被轉換為數字格式,包括透過電話、相機或錄音機等傳遞的語音及資料,甚至記錄身體活動的資料,例如透過穿戴技術所監控的心跳頻率等。不僅如此,現在的資料分析技術提供即時的資料擷取與分析功能,這將是速度上的考驗,像是網路上使用者的線上活動記錄、GPS提供的地理追蹤資訊,手機的定位功能等,這些都是高速的資料收集與分析的例子。
由此可見,現今的大資料已經和以往不同了,更大量、更多元、也更快速。以前所收集的資料是部分的、有關連的,資料結構也是被定義好的,資料分析會有延遲時間。例如進行線上交易時,只會紀錄幾個關鍵的欄位。但現在,大量的資料包括非結構化和不完整的資料,瀏覽網站時的路徑、點擊流、地理空間位置等也都會被記錄下來,而且分析的速度是即時的,資料在被擷取時就進行分析。在這些新樣貌之下,將產生許多潛在的機會點與挑戰。
國家政府如何看準機會點,即時掌握住這些資源,並運用大資料,改變人民的生活,將是各國政府都要面臨的巨大課題。
大資料時代下的3大機會點
這份報告提出了3項大資料能影響到國家與人民生活的機會點。包括大資料可以增進工作效率,運用不斷進步的物聯網技術,促進產業與訊息化經濟的結合,加速經濟發展。像是在噴氣發動機和送貨車上加裝感應器,可以監控數百個資料點,並在需要維護時自動發送警報。這使維護成本降低,提高安全性與工作效率。
另外,大資料還可以找出可能浪費資源的地方,避免不必要醫療理賠,進而能有效運用納稅人的錢。例如,醫療保險與醫療補助中心運用可預測的分析軟體,辨別出高風險的投保人,來降低詐欺、浪費與濫用的風險,此系統已遏止或預防超過1億1千5百萬美元的醫療浪費,該計畫在第一年內每花1美元即節省3美元的浪費。
甚至,大資料甚至能夠及時發現新生兒的感染狀況,拯救新生命。在新生兒重症加護病房中運用數百萬個資料點的資料分析與監控,辨識出新生兒接觸到潛在致命感染源的可能並及時預警,也能找出辨別的因素,如溫度增加與心跳速率等。
除了以上3大機會點之外,美國國防部高級研究計畫局在阿富汗戰爭之中,將資料科學家組成的Nexus7團隊部署於軍事單位,運用資料分析工具協助指揮官突破挑戰。例如結合衛星資料,找到並摧毀簡易爆炸裝置。其他領域也都有非常多的應用,包括醫學研究、增加農業生產力、提升能源效率、全球發展、教育、環境監測、預測氣候變化等,這些也都是未來大資料的機會點。
除了機會,這份報告也提出大資料帶來的疑慮,並提出了給歐巴馬政府推動下一階段大資料政策的建議。
大資料帶來的3大疑慮
第一項疑慮是,政府與公民之間的權力平衡將可能被改變。政府對大資料的使用可以帶來巨大的好處,提供更好的服務,但這些使用可能觸及言論自由或自由結社的風險。隨著更多的資料收集、分析和儲存在公共和私人兩個不同的系統之上,我們應設立適當的法律,以維護政府與公民之間保持平衡。
其次,人民更多的私密個資將可能被揭露。功能強大的大資料技術涉及多個資料庫的合併,這種做法,有時被稱為「資料的融合」,也可能導致所謂「馬賽克效果」。有些匿名的身分將可能因為資料融合之後而被識別出來。因此,當大資料更廣泛應用時,我們必須確保具效力的消費者隱私權保護。
最後一項疑慮是,大資料工具可能造成差別待遇。越來越多商業和個人生活上的應用可以透過大資料演算法和自動化的流程來決定,這將可能產生偏見。例如,銀行藉由大資料工具篩選出償還能力未達門檻的人,導致對個人的歧視,損害某些族群的權益。我們必須特別注意某些大資料的使用情境,例如買房、就業和信貸。
給歐巴馬的6項大資料政策規畫建議
針對大資料與隱私問題,PCAST報告中提出了6項政策建議,其中4項政策建議與法律修改有關,包括了政府應修改《消費者隱私保護法案》,讓消費者能夠清楚、明確地知道個人資訊如何被使用。且這項法案應擴大適用於非美國人民(不分國籍),因為隱私權具有全球價值,這將反應美國聯邦政府如何處理對非美國人民的身分識別資訊。
另外,還建議歐巴馬政府應制定出國家資料外洩法,避免資料外洩造成嚴重的影響。可依據2011年美國政府所提出的網路安全立法建議(Cybersecurity legislative proposal),提供單一的國家安全資料破壞標準。再來是電子通信隱私保護法的修改,政府應確保線上的數位資料有一致的保護標準。例如在固定的一段時間過後刪除電子信箱中的未讀信件。
其他兩項政策建議,則是為了確保所收集的學生資料只被用於教育目的,在促進更好的學習成果同時,保護學生免於資料被不當使用或共用。以及運用技術專業,確保受保護團體不會因大資料分析結我而遭受差別待遇。政府應設立科學專家,辨別出大資料的做法與結果是否造成歧視性的影響。
從資料開放到大資料發展,再從多項發展計畫到全面的審查報告,不論美國政府在這一連串的推動成果如何,我們都可以透過美國政府的眼睛,看到大資料確實以極快的速度在轉變,傳統的分析技術早已無法負荷,需要開發出更為先進的技術,政府因應的政策也需要不斷的擴大與創新。不僅如此,若要能起跑的更快,政府單位需要借助各產業、私人企業、學術單位、非營利組織與人民團體的力量,促進各個組織單位的合作關係,將能激發出更多的創新應用。
再看美國政府過去這兩年內的大資料發展與今年的研究報告,可以發現歐巴馬一直積極地正視這個議題,美國也將大資料運用在更多的領域,更多的層面,甚至到生活中的每個角落。從美國的研究專家分析中,知道人民所重視的隱私權問題與大資料帶來的疑慮,必須藉由相關法案的增修來加以平衡。PCAST團隊所提出報告與政策建議不僅能夠對歐巴馬在未來政策上作為參考,對臺灣政府而言也將是一個現成的參考。
美國白宮大資料研究報告重點
大資料3大機會點
● 大資料正在提升工作效率,促進經濟發展。
● 大資料正在避免不必要的浪費,有效運用納稅人的錢。
● 大資料正在拯救新生命。
大資料3大疑慮
● 政府與公民之間的權力平衡可能被改變。
● 更多私密個資可能被揭發。
● 強大分析工具可能造成差別待遇。
大資料6項政策建議
● 修改消費者隱私保護法案,讓消費者能夠清楚知道個人資訊如何被使用。
● 制定國家資料外洩法,避免資料外洩造成嚴重的影響。
● 將隱私保護法擴大適用於非美國人民。
● 確保所收集的學生資料只被用於教育目的,保護學生資料免於被不當使用或共用。
● 運用技術專業,確保受保護團體不會因大資料分析造成歧視結果。
● 修改電子通信隱私保護法,確保線上的數位資料有一致的保護標準。
資料來源:美國白宮,iThome整理,2014年7月
美國總統歐巴馬上任後即簽署了「透明與開放政府」的備忘錄,宣示打造一個開放、透明的政府,啟動了美國政府開放資料趨勢,也帶動了日後的大資料發展。(照片提供/美國白宮)
美國總統顧問John Podesta,今年1月受總統委派,帶領PCAST團隊為大資料進行全面審查,並在5月1日提出了一份研究報告。(照片提供/美國白宮)
相關報導請參考「政府擁抱大資料」
熱門新聞
2024-12-22
2024-12-20
2024-12-22
2024-12-20