由史丹福大學助理教授James Zou所主導的研究,使用了7款熱門的GPT偵測器來檢查91篇源自中國論壇的托福寫作文章,以及88篇存放在Hewlett Foundation資料庫中,由美國8年級生所撰寫的英文作文。研究人員並未公布用來實驗的GPT偵測器名稱,僅揭露了研究成果,指出平均而言,辨識托福文章是否由AI撰寫的錯誤率高達61.3%,諷刺的是,當研究人員透過ChatGPT來強化這些托福文章的用字遣詞,結果將其辨識為AI生成的平均錯誤率就從61.3%降到11.6%了。(圖片來源/《GPT detectors are biased against non-native English writers》,https://tinyurl.com/22cbofes)

在諸如ChatGPT等基於生成式預訓練模型(GPT)的聊天機器人問世之後,即有不少人利用這類的工具來作研究或撰寫文章,也使得老師或教授以各種GPT偵測器來判斷學生的文章是否來自AI,然而,最近的一項研究顯示,母語非英文的使用者在撰寫英文文章時,有超過一半被這些GPT偵測器錯誤地辨識為AI生成的。

此一研究是由史丹福大學生物醫學資料科學的助理教授James Zou所主導,刊登於《Patterns》期刊,彰顯了坊間的GPT偵測器具備語文上的偏見與歧視。

研究人員使用了7款熱門的GPT偵測器來檢查91篇源自中國論壇的托福寫作文章,以及88篇存放在Hewlett Foundation資料庫中,由美國8年級生所撰寫的英文作文,發現這些偵測器比較能正確分辨美國學生所撰寫的文章,卻錯誤地把一半以上的91篇由中國人撰寫的托福文章當作是AI生成的。

研究人員並未公布用來實驗的GPT偵測器名稱,僅揭露了研究成果,指出平均而言,辨識托福文章是否由AI撰寫的錯誤率高達61.3%,當中有一款GPT偵測器的錯誤率甚至高達97.8%,而且所有的偵測器一致認為當中的19.8%是由AI生成的。另一方面,針對8年級作文的偵測錯誤率則僅有5.1%。

進一步分析發現,造成辨識錯誤的主要原因是托福文章在語言的多樣化與詞語的選擇上較為有限,而8年級作文的語言使用則更為複雜,相較之下,GPT偵測器更容易準確辨識後者。

諷刺的是,當研究人員透過ChatGPT來強化這些托福文章的用字遣詞,結果將其辨識為AI生成的平均錯誤率就從61.3%降到11.6%了。反之,簡化8年級作文中所使用的辭彙,也讓這些GPT偵測器的錯誤率從5.1%大幅提高到56.9%。

雖然該研究是以中國論壇為樣本,但其實它適用於任何非以英文為母語的使用者,如果懂的英文單字不夠多,在撰寫英文文章時,就很容易被這些偵測器誤認為是AI生成的。

熱門新聞

Advertisement