Google開源SynthID Text

圖片來源:

Google

Google DeepMind周三（10/23）宣布，已透過Responsible Generative AI Toolkit的更新開源了SynthID Text浮水印工具，以用來辨識由AI生成的文字內容，可供開發人員及企業免費使用。

SynthID同時具備建立浮水印，以及辨識AI生成內容的能力。它可在不危及原本內容的前提下，將數位浮水印直接嵌入由AI生成的圖像、聲音、文字及影片中，同時它也能掃描這些內容的數位浮水印，以辨識它們是否由AI生成。此次Google僅開源針對文字生成的SynthID Text。

Google說明，大型語言模型（LLM）在生成文字時一次會生成一個Token，這個Token可能是一個字元、一個單字，或者是段落的一部分，為了建立連貫的文字，模型會預測下一個最可能生成的Token，相關的預測是基於先前的文字以及每個潛在Token的機率。

例如當LLM要生成「我最喜歡的水果是...」時，可能會填入「芒果」、「荔枝」、「木瓜」或「榴槤」等Token，每個Token都會獲得一個機率分數，只要有許多不同的Token可供選擇，SynthID即會在不影響輸出品質及準確性的情況下，調整每個Token的機率分數（調整非常少）。

在不斷重複上述程序之後，單一句子可能含有10個或更多經過SynthID調整的機率分數，一個頁面就可能含有數百個。模型最終選擇的Token機率分數，再結合該Token被SynthID所調整的機率分數，就形成了浮水印。這就像是一個隱形的數位簽名，它並不影響所生成的文字內容，人眼也看不出來，卻能夠利用特定工具來檢測與驗證。

此一SynthID Text浮水印技術論文已於《Nature》上出版，並透過Google Responsible Generative AI Toolkit開源。此外，Google也已經在Gemini的應用程式及網頁版中整合了SynthID Text技術。

圖片來源／Google

熱門新聞