大型語言模型擁有強大的語言處理能力,但是在數學與推理能力仍有很大的進步空間,因此大型語言模型開發商現在的研究目標之一,便是提升模型的邏輯和推理能力。Google的新研究便是使用一種稱為隱式程式碼執行(Implicit Code Execution)的技術,來強化語言模型的數學運算能力。

大型語言模型在收到提示詞後,便會預測接下來可能出現的單詞生成回應,語言模型在語言和創造性任務能力很好,但是在推理和數學領域能力卻很弱,研究人員提到,要讓大型語言模型能夠處理進階推理和邏輯問題,不能只仰賴原本大型語言模型的輸出。

Google新方法的靈感,來自諾貝爾經濟學獎得主丹尼爾康納曼的知名著作《快思慢想》,書中將人類思維分成系統一與系統二兩個模式,系統一處理直覺且情緒化的思考,系統二則是具邏輯的理性思考。

研究人員表示,原本大型語言模型的輸出,接近人類系統一的思考,可以快速生成文字,但沒有經過深入思考,因此常會生成一些意料之外的輸出。系統一的思考沒有辦法解決數學問題,數學問題更需要公式化,遵循正確步驟推理和計算,所以需要仰賴系統二的思考。

而新添加的隱式程式碼執行則是扮演系統二思考的角色,讓Bard能夠同時擁有系統一和系統二的思考能力。Bard現在會辨識可能需要邏輯思考的指令詞,並在後臺執行計算程式碼,以產生更精確的輸出。根據Google內部的測試,在加入隱式程式碼執行技術後,Bard在計算和數學的回答準確性提高30%。

因此Bard現在可以計算出像是15683615的質因數、儲蓄成長率或是反轉英文單字字母排序等問題,但研究人員提到,Bard還有很多改進的空間,像是Bard現在可能不會產生程式碼解決問題,也可能產生錯誤的程式碼,或是不會在回應中包含已執行的程式碼。

OpenAI最近也發表了一篇新的研究論文,目的是要提升大型語言模型的推理能力,使其能夠更好地解決數學領域的問題。OpenAI使用一種稱為過程監督的訓練方法,透過獎勵過程中每個正確步驟的推理,驅使模型人工遵循人類的思考模式,產生更可靠的結果。OpenAI的新方法在MATH測試集中試驗,顯示過程監督能使模型解決接近80%的測試集問題。

熱門新聞

Advertisement