研究顯示ChatGPT寫程式的問題解答正確率不到五成，但很容易被採信

圖片來源:

Levart_Photographer on unsplash

許多人已經發現AI模型幻覺問題，導致AI聊天機器人給的答案充滿謬誤，但是錯得有多離譜則不得而知。美國大學一項研究顯示，OpenAI ChatGPT在程式撰寫上給的建議，正確率竟不到5成，但有4成時候人類無法察覺。

過去軟體工程師在寫程式遇到問題時，多半是向Stack Overflow這類Q&A平臺求助。但這類平臺在ChatGPT出現後遇到極大挑戰，因為工程師都轉向ChatGPT。美國普度大學（Purdue University）一群研究人員於是想了解ChatGPT對軟工的答案是否是真的有用，以及有什麼特色。

他們針對ChatGPT對Q&A平臺Stack Overflow（SO）上517道程式撰寫問題給出的答案，分析正確性、一致性、完整性及簡明性。此外也對使用ChatGPT建議進行語言及情感分析，以了解ChatGPT的答案有何特色，以及人類用戶對AI給的答案建議的接受度。

根據分析，研究人員發現52%的問題上，ChatGPT給的答案是不正確的，62%的答案過於冗長。此外，研究人員還發現AI答案有高達78%和人類答案不一致。研究人員深入分析ChatGPT的答案，還發現有大量概念及邏輯錯誤的問題。

研究人又以2,000道SO上的寫程式問題分析ChatGPT答案的語言特色。研究顯示，ChatGPT的答案使用正式、漂亮用詞、甚少出現不禮貌的負面情感，而且語氣神似真人說話，這使得它容易取得用戶的信任。雖然用戶認為SO上其他人給的答案品質較高，但有4成（39.34%）題目會不小心相信ChatGPT給的錯誤答案，只有6成的人能察覺到它的答案是不正確的。

結論是，想靠AI幫忙寫法律判例、寫程式或論文提升工作效率，可能還得等一陣子。研究人員提醒，由於ChatGPT講話有條理且充滿肯定語氣，很具說服力，但至少現在，在軟體工程中使用ChatGPT的答案要十分小心謹慎。

熱門新聞