MIT開發能修改維基百科文章錯誤的自動系統

麻省理工學院（MIT）研究人員創建能夠自動維護維基百科的系統，修正文章中錯誤的資料，減少需要花費的人工編輯時間。維基百科具有數百萬篇文章，文章需要不斷更新以呈現最新的資訊，包括進行文章擴展、重寫或是資料修改等，而這些工作需要由全世界的志工手動完成。

這個新的自動系統，能夠以人工智慧修復維基百科文章中的錯誤，其使用一系列的演算法，透過利用網路上最新的資訊，辨識出文章中的錯誤，並且生成句子修復錯誤。該系統背後裡用了許多文字生成技術，可用來辨識兩個句子間矛盾的地方，並將他們融合在一起。

目前也存在許多自動編輯維基百科的機器人，但這些工具通常用於減輕破壞，或是將嚴格定義的資訊放進預定義的模板中，研究人員希望新開發的系統，只要給定一段非結構化的句子，就能以人性化的方式，修改維基百科文章中的句子，研究人員提到，現存的機器人多數是以規則執行任務，但是他們的系統可以推論兩個句子矛盾之處，並且產生連貫的文字。

用來訓練自動系統模型的資料集，便是包含正確資訊的語句以及維基百科語句所構成的句對，而這些句對會被標上同意、不同意或中性三種標籤，同意代表正確資訊的語句和維基百科的語句資訊相符，不同意則反之，中性則代表沒有足夠的判斷資訊。

自動化系統的輸入有兩個，一個是維基百科文章中過時的句子，另一個為包含正確資訊的語句，系統需要根據後者，自動調整維基百科中錯誤的句子，過程可能需要刪除和保留特定單詞、更新部分的事實，或是保留樣式和語法。

自動化系統由兩個模型組成，其一是事實檢查分類器，透過預訓練將句對標記為同意、不同意或中性，而系統處理的重點在於不同意標籤的句對，而另一個分類器，則負責辨識維基百科錯誤的語句中，導致句對被標記為不同意的單詞，並且以雙編碼器與解碼器框架，將包含正確資訊語句的重點單詞，融入到維基百科需要修改的語句，輸出最終的句子。

經SARI評估證實，新模型所產生的結果，得分都高於傳統的方法，SARI方法是評估機器刪除、增加和保留字詞，與人工修改的差異。研究團隊提到，新模型所進行的事實修正更為準確，也跟人類更為相近。

熱門新聞