圖片來源: 

Levart_Photographer on unsplash

許多人已經發現AI模型幻覺問題,導致AI聊天機器人給的答案充滿謬誤,但是錯得有多離譜則不得而知。美國大學一項研究顯示,OpenAI ChatGPT在程式撰寫上給的建議,正確率竟不到5成,但有4成時候人類無法察覺。

過去軟體工程師在寫程式遇到問題時,多半是向Stack Overflow這類Q&A平臺求助。但這類平臺在ChatGPT出現後遇到極大挑戰,因為工程師都轉向ChatGPT。美國普度大學(Purdue University)一群研究人員於是想了解ChatGPT對軟工的答案是否是真的有用,以及有什麼特色。

他們針對ChatGPT對Q&A平臺Stack Overflow(SO)上517道程式撰寫問題給出的答案,分析正確性、一致性、完整性及簡明性。此外也對使用ChatGPT建議進行語言及情感分析,以了解ChatGPT的答案有何特色,以及人類用戶對AI給的答案建議的接受度。

根據分析,研究人員發現52%的問題上,ChatGPT給的答案是不正確的,62%的答案過於冗長。此外,研究人員還發現AI答案有高達78%和人類答案不一致。研究人員深入分析ChatGPT的答案,還發現有大量概念及邏輯錯誤的問題。

研究人又以2,000道SO上的寫程式問題分析ChatGPT答案的語言特色。研究顯示,ChatGPT的答案使用正式、漂亮用詞、甚少出現不禮貌的負面情感,而且語氣神似真人說話,這使得它容易取得用戶的信任。雖然用戶認為SO上其他人給的答案品質較高,但有4成(39.34%)題目會不小心相信ChatGPT給的錯誤答案,只有6成的人能察覺到它的答案是不正確的。

結論是,想靠AI幫忙寫法律判例、寫程式或論文提升工作效率,可能還得等一陣子。研究人員提醒,由於ChatGPT講話有條理且充滿肯定語氣,很具說服力,但至少現在,在軟體工程中使用ChatGPT的答案要十分小心謹慎。

熱門新聞

Advertisement