生成式AI的軟體開發能力在2024年底又有了新突破,一舉從輔助角色,轉而有能力成為軟體開發流程中的主角,進一步分攤更多真人開發者的工作,而原本的企業IT人員,就得超越原本的程式碼撰寫工程師職務,轉為成為具備架構設計能力,可以指揮多款AI代理協同開發的專案管理或產品經理角色。
OpenAI在2024年底的12天發布活動最後一天,該公司執行長Sam Altman親自登場,他強調:「在2024年9月登場的o1系列模型,揭開生成式AI模型的新階段。」因為o1模型在程式設計、數學、博士級科學問題等標竿測試上,都大幅超越了GPT-4o,透過關聯思考(Chain of Thought)方式,o1的複雜推理任務處理,也接近真人專家,這是第一款在GPQA科學測試上超越真人博士的GAI模型。在程式設計領域,o1在知名Codeforces競技程式測試的分數達到1,673分,超越89%的真人軟體工程師。
o1登場不到半年,Sam Altman在12天發表活動最後一天揭露了新一代推理模型o3,不論在數學解題、科學理解、程式碼開發等標竿測試中,再次大幅超確了o1。
新版o3最大特色是程式設計能力,再次有大幅躍進,在軟體工程標竿測試SWE-bench Verified測試上,達到71.7%的分數,意思是,針對測試用的2千多個真實Python函式庫問題修改請求,LLM可以解決了其中71.7%的問題。這也代表了LLM解決實際不同軟體開發領域問題的能力。o3的分數遠高於o1的48.9%,多解決了近2成的開發問題,這個分數也高於競爭對手產品,例如Google最新的Gemini 2.0 Flash可以解決51.8%的問題,而Claude Sonnet 3.5也差不多解決了50.8%的問題。雖然這項測試主要針對Python,而無法完全類推到其他語言也有同樣的能力水準,但是可以說,o3對這些真實程式碼的修補能力,已經達到Python開發老手的水準。
新一代GAI模型開發解題能力打敗16萬真人開發者
從另一個測試,可以看到o3與真人軟體開發者的能力比較,在號稱全球最難的程式競賽平臺Codeforces的解題分數上,o3模型的得分達到2,727高分,相當於2024年12月底排名175名的成績,在16萬8千多人參賽開發者中,超越了99.9%的真人開發者。這個分數甚至高於負責打造o3模型的OpenAI資深研究副總裁陳信翰(Mark Chen)自己的2,500分程式競賽成績。
OpenAI在2024年底發布了安全測試計畫,開放資安人員來驗證o3的安全性,預計從2025年初先釋出o3 mini版模型,再陸續部署完整的o3模型。這也代表了,這個媲美真人開發者,超越十萬開發者解題能力的推理型GAI模型,在2025年就可以成為每一個IT人日常工作中的助手,任何企業都可以付費請到這樣一位超強軟體開發者來參與自家專案,這個角色勢必會開始改變企業軟體開發專案的做法。
GitHub Copilot在2021年發布技術預覽版之後,吸引了大量開發者開始運用GAI來輔助軟體開發。隨著模型能力一代代演進,所能生成的開發語言也越來越多,光是GitHub Copilot現在就有能力支援Python、C#、SQL、Java等在內的十多種程式語言的生成,還包括了老舊的大型主機程式語言COBOL,也能透過OpenAI Codex模型與Java語言互相轉換。或像AWS推出的GAI助手Q Developer,可以直接將老舊的Java 8和Java 11版程式碼,直接升級到最新Java 17版本,大幅減少了老舊應用系統現代化改版的重擔。
在o3這樣超強開發能力的模型問世之後,GAI在企業軟體開發中,可以擔任越來越重要的開發角色。不只主流開發工具支援GAI,現在也出現了專門用於AI輔助開發的新興IDE,像是Cursor、Windsurf等。
不只輔助軟體開發,也開始出現更多不同類型的GAI開發助手,像是AWS、微軟Azure和Google雲端,也相繼推出雲端部署GAI助手,可以協助應用程式的部署配置或是協助處理上雲部署的問題。
而AWS更在2024年度大會上揭露了新版Amazon Q Developer,加入了開發文件、程式碼品質審查和測試的AI代理,可以在開發者慣用的IDE中生成文件,甚至是繪製流程圖,也能用來偵測程式碼中的程式臭蟲、邏輯錯誤、程式碼重複、設計模式違例、違反命名規則設計等不同類型等問題,還能提出修改建議,開發者只要審視後按下同意,就能自動更新程式碼,幾乎不用動手自己寫。
在測試輔助上,GAI助手Q Developer可以自動生成單元測試,修正測試涵蓋範圍,也能生成簡單的測試用例。另外也增加了新舊程式碼轉換功能,可以將Windows平臺的.NET應用,轉換到Linux環境可用的版本,或是將本地端VMware虛擬環境的應用,轉移到公雲VM上部署。
GAI從軟體開發、擴展到測試、部署、重構等領域的輔助
GAI在企業軟體開發流程中的角色,不只侷限於開發輔助,而是延伸到測試、部署、重構等更多軟體工程的領域。國際知名顧問公司Gartner以AI增強軟體工程(AI-augmented software engineering),來形容這一類GAI在軟體工程上的輔助或增強機制。Gartner在2024新興科技成熟曲線報告中認為,AI增強軟體工程屬於最快2年,最慢5年會帶來重大影響的新興技術之一,不只能讓開發者快速寫出程式,還是一項可以讓開發者更專注、高度參與、沈浸在心流狀態的生產力提升技術。
這些開發工具的GAI輔助,或是不同專門用途的GAI開發助手,甚至是媲美真人開發老手能力的模型,在2025年都將成為企業IT人可用的工具,這將開始改變IT人在軟體開發流程中的角色,不再是樣樣自己動手的開發黑手,而要扮演衡量GAI程式碼的審查者,甚至是指揮不同任務GAI開發助手,協同完成開發任務的專案管理者。
熱門新聞
2025-01-26
2025-01-25
2025-01-26
2025-01-27
2025-01-27
2025-01-26
2025-01-27