社會科學近年正經歷一場數位革命,計算社會科學(πomputational social science)的興起,宣告了這場革命的來臨。在我們二○○九年刊登於《科學》期刊的文章中,大衛•雷薩教授和我在十多位研究同儕的支持下,闡述了計算社會科學運用廣度、深度和規模空前的資料,增加我們有關個人、群體和社會的知識之潛力。這場革命的主要驅動因素,是信用卡、手機、網路搜尋等資料來源,所提供的有關人類及其行為的巨量資料。
提供人類行為巨量資料的行為測量平台
我和我的學生創建了兩個行為測量平台,以促進這門新科學的發展。如今,這些平台正為世界各地數以百計的研究小組,產生大量量化資料。第一個平台是社會計量識別牌(sociometric badge),這種可以記錄佩帶者行為的電子裝置,取代了簡單的身分識別牌。第二個平台是行為測量軟體funf,配合如今無所不在的智慧型手機使用。
無論是社會計量識別牌,還是智慧型手機funf系統,使用的總體框架是一種縱向實地實驗室或社會觀察研究,結合一套支援系統基礎設施(提供資料的感測、蒐集和處理功能),以及一套反饋和與實驗對象交流的工具。
這些實地實驗室研究的關鍵目標之一,是同時蒐集多種網絡模態(networking modalities)的資料,例如面對面互動、電話通話、電子郵件往來等,以增進我們對其特性和相互關係的了解。我們通常會利用下列元件:
● 數位感測平台:這是此類研究資料蒐集的核心。我們會以社會計量識別牌或智慧型手機為原位社交感測器(in situ social sensor),以掌握使用者的活動特徵、親近網絡(proximity networks)和互動形態。社會計量識別牌適合用在已習慣使用身分識別牌的公司中的實驗,而智慧型手機則適合用在以整個社區為對象的實地實驗室研究。
● 調查:實驗對象通常會定期完成一些調查。月度調查包括有關他們的自我感知、關係、團體聯繫和互動的問題,以及一些標準分析,例如心理學家的五大人格特質檢驗。每日調查則可能包括有關心情、睡眠和其他活動的問題,通常會記錄在智慧型手機或網路瀏覽器中。
● 購買行為:有關購買的資料,會藉由收據和信用卡帳單蒐集。這部分會以可能受同儕影響的類別為目標,例如娛樂和用餐選擇等。
● 數位社群網絡資料蒐集應用:參與者可以選擇安裝一個社群媒體應用程式,記錄有關他們的線上社群網絡的資料和交流活動。
當我們比較自動蒐集的數位資料和問卷調查資料時,我們發現一些出人意表的行為模式。舉例來說,我們只靠某些資料,如實驗對象走了多少路、何時與誰通電話,以及何時花多少時間在面對面社交上等,便能估計其性格類型和可支配所得。我們也能看到某人何時感染流感或心情憂鬱。
社會計量識別牌
一個組織中最有價值的意念流,是面對面和電話交談,因為這種交流傳遞最複雜、敏感的資訊。但是,幾乎沒有組織會測量這種意念流,而不測量的東西當然是無法管理的。
我們的研究對象包括創新團隊、醫院的手術後病房、銀行內面對客戶的團隊、後勤部門和客服中心的團隊。我們通常會安排這些組織的所有成員,尤其是管理階層,佩帶社會計量識別牌,蒐集有關他們個人交流行為的資料,如語氣、肢體語言、與誰交談和攀談多久等。我們發現一個驚人的一致現象:交流形態是預測團隊成就的最重要因素,而且其重要性往往不低於所有其他因素,如個人智慧、性格、技能,以及意念內容等的總和。
社會計量識別牌藉由測量佩帶者表達出來的許多常見社交訊號,蒐集和分析社會行為資料。它包含一個位置感測器、一個記錄肢體語言的加速感測器、一個偵測誰在附近的距離感測器,以及一個偵測是否有人講話的麥克風。但是,為了避免侵犯隱私,該裝置並不錄下講話內容,也不錄影。
這種識別牌蒐集的資料,正在改變辦公空間的布局設計,也正在改變企業對互動形態的認識。這種資料對遠距離工作和跨文化團隊特別重要(這種工作團隊在今日的全球經濟體中關係重大),因為他們能據此將互動形態視覺化並加以改善。
手機感測
我和我的學生利用智慧型手機和普遍的計算方法,開發出一個以手機為中心的社交活動和行為感測系統,名為funf。這套系統蒐集的資料,包括超過二十五種基於手機的連續訊號,例如位置、加速感測資料、基於藍芽的裝置鄰近情況、通訊活動、安裝的應用程式、正在使用的應用程式、多媒體和檔案系統資料,以及我們試驗的應用程式所產生的額外資料。此外,我們也蒐集其他類型的資料,包括藉由收據和信用卡帳單獲得的財務資料;數位社群媒體活動紀錄;有關心情、壓力、睡眠、生產力和社交情況的每日調查;有關健康情況的其他資料;標準的心理分析,例如人格測驗;以及實驗對象手動輸入的許多其他類型的資料。
這些資料使我們得以自動重建實驗對象社區的多種網絡模態,例如他們的電話通訊、面對面的互動、線上社會關係,以及手動自報的網絡等。我們利用這些網絡觀察,研究意念、決定、情緒,以至流感等事物如何在社區內傳播。我們的高層次目標,包括研究「自然」和外部強加的社會機制如何影響行為和決策,以及以提升決策品質為目的的新機制或工具該如何設計與評價。
納德夫•阿哈龍尼等人在二○一一年描述的funf開放感測框架(funf Open Sensing Framework),是一種可擴展的行動裝置感測和資料處理框架。它提供了一套開放源碼、可重複使用的功能,使我們得以蒐集、上傳和設計許多類型的資料。目前世界各地,有超過一千五百個研究小組正在使用funf。
這套系統是設計來做科學研究的,使用這套系統的核心問題之一是保護隱私和敏感資料,所以funf的所有功能都包括嚴格的隱私保護措施。例如,funf蒐集的資料,是與特別設計的手機用戶識別碼連結,而非與他們現實世界中的識別資料相連。人類可讀的文字,例如文字訊息和電話號碼,全都以散列識別碼(hashed identifiers)存起來,絕不以可讀文字的形式儲存。
標準的funf感測功能包括:全球衛星定位(GPS)、無線區域網路(WLAN)、加速感測器、藍芽、基地台ID、通話紀錄、簡訊紀錄、瀏覽器紀錄、聯絡人、使用的應用程式、安裝的應用程式、螢幕狀態、媒體電池狀態。這套系統還能記錄社群媒體活動、信用卡活動和其他類型的資料。使用Android手機,可在www.funf.org獲得這套系統。
關於「開放式個人資料儲存」
個人資料-有關使用者位置、通話、網路搜尋和偏好的數位資料-被稱為新經濟的石油,而我的見聞使我更相信這項比喻。各種應用程式正是靠這些高維度資料,提供智慧型服務和個人化的體驗。演算法幫助服務使用者加強與世界的聯繫,提升生產力和獲得更多娛樂。這些應用也彰顯了以用戶為中心的資料,具有驚人潛力和潛在風險。
個人和以用戶為中心的資料,已經有人大規模地蒐集、處理和利用。數以百計的各種服務和公司蒐集和儲存這些資料,這種零碎狀態使創新的服務和產生這些資料的當事人,無法取得和使用它們。當事人無法充分利用他們的資料,而且也很難、甚至是不可能了解與管理相關風險,因為多數資料並非匿名或是有辦法辨別當事人的身分,而這是一個大問題。這些資料的使用和探勘技術,必須與資料的所有權和隱私保護設計同步發展。
邁向個人資料儲存
個人資料的所有權和儲存方式,已成為人們討論的議題很長一段時間。不過,相關解決方案的大規模應用是一個雞與蛋的問題,因為用戶在等合適的服務,而服務則在等用戶採用。
我和約翰•克利平格在資料導向設計中心的研究顯示,最近的政治和法律發展,改變了這方面的情況。我和博士與博士後學生伊夫•亞歷山卓•蒙如耶、艾瑞茲•史梅利和王聲宏開發出名為「開放式個人資料儲存」(openPDS)的框架,它採用世界經濟論壇的資料「所有權」定義,也就是資料的占有權、使用權和處分權(這是我為「資料新政」所提出的)。此外,它也遵循網路空間可信身分國家策略(NSTIC)、美國商務部綠皮書,以及美國網路空間國際策略的政策。openPDS這個框架,也與歐盟執委會二○一二年的資料保護規則改革高度一致。這些建議、改革提議和規則全都承認,個人資料愈來愈需要受當事人控管,因為當事人最清楚相關的風險和好處。
在當前這個用戶每天與很多公司互動的年代,互通性(interoperability)不足以達致實質的資料所有權,遑論解決隱私問題。為了達致真正的資料所有權,用戶必須擁有一個安全的空間來集中儲存自身的資料。擁有一個個人資料儲存空間(PDS),將使用戶得以檢視和了解其資料的可能使用方式,並控制資料的流動,以管理細緻的資料存取。
除了可促進資料所有權外,PDS也是一個特別誘人的解決方案,因為它能促成一個公平、有效率的資料市場,也就是用戶可以替其資料取得最佳服務和演算法的市場。
● 公平:用戶控制資料的存取,因此可以評價相關服務。用戶可以考慮公司的聲譽,決定該公司的服務是否值得他提供其要求的資料。在我們建議的框架中,用戶可以問諸如下列的問題: 「找出這首歌的名稱,是否值得我透露自己的位置?」因此可以很方便地改用另一種服務。
● 有效率:用戶可以很順暢地允許新服務存取其資料。我們提議的框架清除了新企業的市場進入障礙,使創新能力最強的公司,得以提供仰賴資料的更好服務。這個框架也能激勵企業,因為用戶選擇的服務可以不必靠自己蒐集大部分資料,企業可以存取智慧型手機的感測器,以及其他應用程式或服務已經蒐集的歷史資料。因此,服務業者可以專注利用全部的可用資料,盡可能提供最好的用戶體驗。舉例來說,音樂服務公司可以根據用戶在網路上表示自己喜歡的歌曲和藝人、用戶朋友的喜好,甚至是用戶光顧哪些夜店,來提供個人化的電台服務。
有關個人資料的儲存、存取控制和隱私保護問題,也有人提出了其他方案。不過, openPDS在其與現行政治和法律思維一致,以及其保護隱私的動態機制這兩方面均是獨特的。
保護個人資料的隱私,是眾所周知的一個難題。高維度資料的相關風險,往往是微妙和難預測的。將個人的非總合資料匿名化是很困難的,專家已表示這是「演算法上不可能」(algorithmically impossible)的難題。近幾年來,有很多研究顯示,看似匿名的資料集有「被解密」的風險,當事人的身分可能被重新辨識出來。例如,就有人發現,數百萬名用戶的移動資料集,可能只需要四個時空資料點,就能辨識出當事人的身分。
動態隱私:一種新典範
人們已經提出很多保護或模糊處理個人資料的方案,但這些方案沒有一個能滿足現今記錄的高維度、多模態和持續演變資料的需要。我們研擬出動態隱私的概念,以便將演算法上不可能解決的匿名化問題,轉化為一個較容易處理的安全問題,其做法是回答問題,而非允許服務業者存取原始資料。
想像一下,有項服務希望根據用戶是否正在跑步,來提供個人化的用戶體驗。在現行模式下,這項服務會蒐集來自用戶手機的位置和/或加速感測器資料,然後上傳至遠處某個伺服器,以計算出相關資料,也就是用戶是否正在跑步。在openPDS/動態隱私機制下,用戶的PDS中將安裝一段程式。這段程式將在PDS的安全環境下,利用敏感的位置和加速感測器資料,計算出這項服務需要的答案,而遠處的伺服器只會收到這個答案。
結合資料所有權,這個簡單的構想,使用戶得以受惠於個性化服務,而不必分享原始資料,如原始的加速感測器讀數或GPS座標。換句話說,用戶分享出去的,是服務所需要的答案,而非原始資料。雖然這種做法本身不是一種完整的方案,但自動縮減資料的維度和範圍,僅提供特定問題所需要的最少資料,使分享資料變得較為安全。這種機制也使用戶得以安全地授出或撤銷資料存取許可,不需要可信的第三方,即可匿名分享資料,並監督、審核資料的使用。群體計算機制的功能更進一步,允許多名用戶匿名提供資料,總合起來回答諸如下列的問題: 「目前有多少位用戶在這個區域?」
用戶體驗
假設愛麗絲希望在不使用PDS的情況下,安裝Foursquare這個用來打卡報告位置的Android應用程式。愛麗絲會將該程式下載到自己的手機,授權Foursquare存取手機的網絡通訊、個人資料和手機功能設定等資料-這是用戶在Android手機上,安裝任何新應用程式時會遇到的問題。愛麗絲將建立一個使用者帳戶,然後從零開始與Foursquare建立關係。
Foursquare會將它蒐集到的有關愛麗絲的所有資料,儲存在其後端的伺服器上。愛麗絲將無法存取這些資料,也無法看到Foursquare使用什麼資料來推斷她這個人。此外,各種服務之間若有整合,是在幕後發生的。如果Foursquare希望利用推特或臉書的資料,愛麗絲將必須做出相關授權,但她基本上不會知道Foursquare隨後使用多少外部資料。
如果愛麗絲選擇下載結合PDS使用的Foursquare版本,她將像安裝其他Android應用程式那樣安裝這個程式。當這個程式啟動時,將提醒愛麗絲在其PDS中安裝一個Foursquare應用程式。這個PDS程式,會說明Foursquare將確切存取愛麗絲PDS中的哪些資料,以及哪些概要資料將傳送給Foursquare的伺服器,使愛麗絲得以了解安裝這個程式對其隱私有何影響。
這個Foursquare PDS程式,將存取和處理愛麗絲PDS中的資料,而不是將愛麗絲的個人資料儲存在Foursquare的伺服器上。愛麗絲將在她喜歡的雲端服務商或自己的伺服器上,安裝或購買一個PDS。假以時日,她的PDS將儲存她的手機蒐集的資料,以及有關她的音樂品味和聯絡人的資料,還有她在日常生活中累積的其他感測器資料。愛麗絲將能完全控制這些資料,也能看到她的手機、其他感測器和各種服務,確切蒐集了哪些有關她的資料。
因為這個Foursquare PDS是在愛麗絲擁有的基礎設備上運行,愛麗絲可核查外流的資料,以確保當中沒有意料之外的東西。如此一來,我們可以在這個PDS上,建立豐富的應用和服務,利用各種不同的資料源,而愛麗絲則仍然擁有這些計算背後的資料,而且能夠採取措施,保護自己各方面的隱私。
實際應用的例子
精神病雖然往往是可治療的,但在世界各地卻是社會成本最高的健康問題之一。舉例來說,在已開發市場經濟體中,重度憂鬱是失能的一大原因。
精神異常的許多症狀,涉及當事人的身體運動、活動和交流形態,而這一切皆可藉由手機資料測量。加速感測器可以偵測到坐立不安、踱步和突然或狂亂的動作。位置追蹤可以偵測當事人探訪的地方、走的路線,以及整體活動量的變化。當事人與其他人通訊的頻率和形態,以及他們講話的內容和態度,也可能透露出數種精神異常的關鍵跡象。此外,如果可以偶爾問問當事人的感受,或是他們在行為開始變得令人擔心時在做些什麼,這些資料的價值將可大為增加。
如果我們可以被動地自動測量這些精神痛苦的「誠實訊號」,醫護人員或許能在當事人的生活失控之前接觸他們。更重要的是,如果他們的朋友可以收到出現問題的提示,便能在最幫得上忙的時候伸出援手。當然,這涉及當事人的隱私問題。
我針對手機感測器測量的行為誠實訊號可以如何用來評估精神健康,以及當事人與朋友分享這些訊號有何價值的觀察,促使美國國防部高等研究計劃署將openPDS和funf系統,納入其「心理訊號的偵測和計算分析計劃」(DCAPS)中。
在「心理訊號的偵測和計算分析計劃」中,智慧型手機提供了一個無所不在的平台,可以在自然狀態下持續感測和監測當事人,而且能將老人配合監測的負擔降至最小。這些裝置可以記錄用戶的語氣、與他人互動的頻率、整體的運動和活動量,以及其他微妙和誠實的社交訊號。(摘錄整理自本書附錄)
個人資料被稱為新經濟的石油,是驅動數百種服務的燃料,各種應用程式更靠這些高維度資料,提供智慧型服務和個人化的體驗。
數位麵包屑裡的各種好主意:社會物理學──剖析意念傳播方式的新科學
艾力克斯‧潘特蘭(Alex Pentland)/著;許瑞宋/譯
大塊文化出版
售價:320元
作者簡介
艾力克斯‧潘特蘭
Alex Pentland
麻省理工學院人類動力學實驗室主任,麻省理工學院媒體實驗室創業計劃主持人,世界經濟論壇大數據與個人資料倡議共同發起人,也是日產汽車、摩托羅拉行動和多間新創企業的顧問委員會創始成員。
2012年獲《富比世》(Forbes)雜誌遴選為全球7大權威資料科學家之一。
熱門新聞
2024-12-24
2024-12-22
2024-08-14
2024-12-20
2024-12-23