圖/資策會
隨著網路與社群平臺蓬勃發展,層出不窮的假訊息,對民眾的威脅也與日俱增。近年來,越來越多民間組織投入查核不實資訊,但以臺灣事實查核中心來說,每日要查核的假訊息量高達數十到數百則,團隊人數卻只有5~6人,在每周查核時間有限的條件下,大多時候只能挑選更重要、影響力更大的訊息優先處理,一則訊息更可能花上數天至一周以上的處理時間。
為了提高訊息查核效率,資策會開發了一套AI不實訊息快篩平臺,不僅可以先對假訊息分群、快篩,更能進一步以AI判斷每則訊息的可疑程度。
先將訊息快篩分群,再以AI判斷可能為假訊息的風險
這套AI不實訊息快篩平臺,是資策會去年底開始規劃,並在今年與臺灣事實查核中心確認需求與規格後,歷時半年研發的成果。這套平臺底層為事實查核資料庫,內容來自於臺灣事實查核中心、MyGoPen與Co-Facts查證過的謠言資料,這三個事實查核組織,同時也是國際事實查核聯盟(IFCN)的認證機構。
這個平臺主要有兩大功能,一是在新訊息匯入平臺時,自動快篩訊息、比對分群,也就是說,當一筆疑似為假訊息的新資料匯入時,系統將自動與過去查證過的資料進行比對,透過訊息中夾帶的文字、連結與影片,來將內容類似的謠言歸類,甚至進一步擴大比對社群平臺資料庫的資料,統計出各謠言的舉報數與查核情況。
資策會服創所組長陳棅易表示,這個功能,可以找出哪些訊息過去已經查證過,是否為查證過的假訊息變形,透過初步分群、快篩,省下查核人員將訊息一則則分類的時間,能直接進行查證作業。而這個作法,也與Line訊息查證機器人美玉姨所應用的技術相似,同樣在接收到一則新訊息時,自動與資料庫中查證過的訊息比對,若為相似訊息,就能自動回傳訊息查證結果。
而第二個功能,則是針對尚未查證過的訊息,一鍵查詢該訊息可能為假訊息的風險程度。過程中,系統將自動以AI分析其語言特徵、風險帳號以及傳播途徑,再根據分析結果給出一個風險值,並以低、中、高呈現風險等級,提供查證人員參考。比如說,A訊息可能有「高」度風險為謠言,查證人員就能優先處理。
這個功能,主要應用了資策會所研發的AI技術,其中在語言特徵分析方面,資策會運用BERT訓練了一個不實訊息語言特徵偵測引擎,來偵測訊息內容是否出現武斷、情緒、推論、冠名等詞彙或語句,因為常見假訊息可能出現冠名(如XXX說),或是用激進的語氣促使用戶轉傳,根據這些特徵,就能進一步預測該訊息的可疑程度。陳棅易表示,模型訓練過程使用了上百篇經過標註的假訊息,準確率也有86~87%。
而風險帳號的偵測,則是去偵測特定訊息的臉書散播帳號,近期是否出現異常行為,藉此來預測該訊息為假訊息的可能性。陳棅易舉例,常見帳號的異常行為,包括從某個時間點開始,大量發送、轉傳特定貼文,這可能代表該帳號已經賣給他人、或被他人控制,又或是該帳號與好友的互動模式改變,僅頻繁與特定幾個帳號互動,且互相轉傳同類型的文章,這些都是異常行為的樣態。
陳棅易也指出,風險帳號偵測較無應用機器學習的技術,而是先從歷史資料歸納出帳號異常行為的規則,再透過系統自動比對特定帳號的風險程度,過程中,系統也會先與黑名單資料庫的帳號比對,若非黑名單成員,才會進一步以異常行為的規則來分析。也因每則假新聞散播過程可能涉及上百個臉書帳號,用系統自動排查的方式,也比過去人工判讀更有效率。
除了追溯假訊息的散播帳號,訊息的散播途徑也可以作為假訊息的判讀依據。陳棅易說明,假訊息散播途徑與一般訊息的散播途徑不同,以一般新聞來說,通常是民眾看過後慢慢轉傳,但假新聞可能會在某個時間點快速散播,若將傳播途徑以關聯圖的方式呈現,後者形狀會由中心向外密集展開,像海膽,但前者則更像榴槤,刺的形狀、密集度不同。資策會以這些異常樣態來訓練模型,讓系統能自動從傳播途徑的特徵辨識出假訊息。
先以雲端服務提供查核單位使用,未來更希望推廣給新聞媒體業者
這套系統,目前透過雲端提供服務,讓用戶從瀏覽器頁面中登入,來查詢特定訊息的風險資訊。「我們還在看新聞媒體會不會有需求、記者能不能用?後面再談授權的方式。」陳棅易表示,未來要往新聞媒體業推廣。
陳棅易也表示,平臺中AI技術,是用來判讀哪些訊息較可疑,但不能取代人工查核步驟,尤其許多訊息仰賴專家知識才能認證其正確性,除了查尋相關資料,甚至還要透過訪談才能驗證,最終還是要回歸人工判斷。
除了持續優化現有平臺的功能外,資策會也正在研究Deepfake技術,目標要在平臺中新增影片、圖片的辨假功能,進一步找出捏造、合成的假內容。
熱門新聞
2024-11-05
2024-11-05
2024-11-07
2024-11-04
2024-11-02
2024-11-02