三款人工智慧程式代理模型於SWE-PolyBench測試基準中的表現比較。左圖顯示各模型在Python、Java、JavaScript與TypeScript四種語言的平均通過率,右圖則比較在不同語法結構任務下的處理能力,包括僅修改單一類別、函式、混合節點或無節點等類型。

AWS宣布推出新測試基準SWE-PolyBench,目的是評估人工智慧程式代理人在多語言環境下,處理真實世界開發任務的能力,涵蓋Python、Java、JavaScript與TypeScript四種主流語言,並透過複雜程式碼修改情境,驗證代理人在跨檔案、跨類別的程式碼導航與理解能力。

SWE-PolyBench測試基準由2,110筆實際GitHub Issue與PR(Pull Request)資料所構成,並包含一組500筆的實驗子集SWE-PolyBench500,方便快速迭代測試,期望彌補現有SWE-Bench測試集偏重Python與除錯任務的侷限。

SWE-PolyBench強調實務導向的任務設計,任務類型涵蓋錯誤修正、新功能開發與程式碼重構,不侷限於單一問題類型或語言,能更準確模擬人工智慧代理人,在實際開發環境的應對表現。該基準不僅提供傳統的通過率統計,也新增檔案層級與語法樹節點層級的定位指標,進一步量化模型能否能準確找出需要修改的檔案、類別與函式。

根據AWS團隊的初步實驗結果,現有多數開源人工智慧程式代理人仍以Python為主要強項,面對需要修改三個以上檔案,或牽涉多類型語法結構的任務,表現明顯下降。以Aider-PB、Agentless-PB與SWE-agent-PB三種針對多語言測試環境所調整的模型版本為例,在JavaScript與TypeScript任務的平均通過率仍低於15%,表示目前主流模型訓練資源集中於Python,尚未能充分學習其他語言的程式結構特性。

AWS團隊表示,SWE-PolyBench是一套跨語言、具高複雜度的人工智慧程式代理測試資料集,現已於Hugging Face開源,搭配完整程式碼儲存庫,供研究者與開發者快速評估與比較不同人工智慧模型表現。

熱門新聞

Advertisement