圖片來源: 

微軟

微軟近日公布能幫開發人員除錯(debug)的AI工具Debug-gym,可用除錯工具協助提供更好的除錯建議。

現今已經有不少業者提供AI程式撰寫工具,號稱能依據程式碼和錯誤訊息建議除錯方案,但是這些工具在方案失敗時並不會提供其他進一步資訊,使某些錯依舊無法解決。有些用戶覺得AI程式工具無法全盤理解他們想解決的問題。

微軟發表的debug-gym是一個輕量代理人開發環境,旨在讓企業開發除錯LLM代理人,它能使用互動式除錯工具,如預設的python debugger(pdb),以積極尋找進一步除錯資訊。透過工具獲得的回饋,Debug-gym擴展代理人的行為和觀察面,使之設定斷點、導覽程式碼、列印變項值,或建立測試函式,甚至改寫程式碼。程式代理人研究、生成新的除錯建議,最後交由人類判斷及核准。在交付之前,這些除錯方法可在相關codebase、程式執行和文件脈絡下進行grounding,而不只是依據訓練資料憑空設想的方案。

微軟相信結合適當工具的互動式除錯方法,可幫助程式代理人更有效解決真實的軟工作業。

微軟說明,debug-gym有以下特色:它支援全程式庫操作,可存取並編輯整個程式庫,且使用Docker沙箱隔離環境,確保除錯安全。它易於擴充,可輕鬆新增工具與功能。此外,它是文字導向:以JSON等結構化文字呈現資訊,適合整合大型語言模型(LLM)。

利用debug-gym,開發人員可以指定資料夾路徑,使用任何自訂程式庫來評估代理人效能。微軟在debug-gym相關網頁中還提供除錯標竿測試SWE-bench及可練習除錯的程式集Mini-nightmare,提供開發人員練習和衡量LLM除錯代理人效能。

微軟並公布以這種方法建立除錯代理人的標竿測試結果。研究團隊使用包括Claude 3.7、OpenAI-o1、OpenAI o3-mini等9種LLM,開發出可下簡單文字(JSON格式)提示的代理人,讓它使用以下除錯工具包括eval、view、pdb、rewrite和listdir以改進除錯解決方案。

初期測試顯示目前上述三個主要模型,能解決解決SWE-bench Lite最多一半的問題,但微軟相信主因在於序列決策行為的訓練資料較少。而且,微軟指出,此種方法的代理人較傳統方法開發出來的代理人,效能已經提升30%、182%及160%,顯示是很有潛力的發展方法。

圖片來源/微軟

熱門新聞

Advertisement