【關鍵IT新趨勢9】GAI輔助擴大到軟體工程增強，IT將變成AI調度PM

新一代推理模型o3 在號稱全球最難的程式競賽平臺Codeforces的解題分數達到2,727高分，在16萬8 千多人參賽開發者中，超越了99.9%的真人開發者。（圖片來源／OpenAI）

生成式AI的軟體開發能力在2024年底又有了新突破，一舉從輔助角色，轉而有能力成為軟體開發流程中的主角，進一步分攤更多真人開發者的工作，而原本的企業IT人員，就得超越原本的程式碼撰寫工程師職務，轉為成為具備架構設計能力，可以指揮多款AI代理協同開發的專案管理或產品經理角色。

OpenAI在2024年底的12天發布活動最後一天，該公司執行長Sam Altman親自登場，他強調：「在2024年9月登場的o1系列模型，揭開生成式AI模型的新階段。」因為o1模型在程式設計、數學、博士級科學問題等標竿測試上，都大幅超越了GPT-4o，透過關聯思考（Chain of Thought）方式，o1的複雜推理任務處理，也接近真人專家，這是第一款在GPQA科學測試上超越真人博士的GAI模型。在程式設計領域，o1在知名Codeforces競技程式測試的分數達到1,673分，超越89%的真人軟體工程師。

o1登場不到半年，Sam Altman在12天發表活動最後一天揭露了新一代推理模型o3，不論在數學解題、科學理解、程式碼開發等標竿測試中，再次大幅超確了o1。

新版o3最大特色是程式設計能力，再次有大幅躍進，在軟體工程標竿測試SWE-bench Verified測試上，達到71.7%的分數，意思是，針對測試用的2千多個真實Python函式庫問題修改請求，LLM可以解決了其中71.7%的問題。這也代表了LLM解決實際不同軟體開發領域問題的能力。o3的分數遠高於o1的48.9%，多解決了近2成的開發問題，這個分數也高於競爭對手產品，例如Google最新的Gemini 2.0 Flash可以解決51.8%的問題，而Claude Sonnet 3.5也差不多解決了50.8%的問題。雖然這項測試主要針對Python，而無法完全類推到其他語言也有同樣的能力水準，但是可以說，o3對這些真實程式碼的修補能力，已經達到Python開發老手的水準。

新一代GAI模型開發解題能力打敗16萬真人開發者

從另一個測試，可以看到o3與真人軟體開發者的能力比較，在號稱全球最難的程式競賽平臺Codeforces的解題分數上，o3模型的得分達到2,727高分，相當於2024年12月底排名175名的成績，在16萬8千多人參賽開發者中，超越了99.9%的真人開發者。這個分數甚至高於負責打造o3模型的OpenAI資深研究副總裁陳信翰（Mark Chen）自己的2,500分程式競賽成績。

OpenAI在2024年底發布了安全測試計畫，開放資安人員來驗證o3的安全性，預計從2025年初先釋出o3 mini版模型，再陸續部署完整的o3模型。這也代表了，這個媲美真人開發者，超越十萬開發者解題能力的推理型GAI模型，在2025年就可以成為每一個IT人日常工作中的助手，任何企業都可以付費請到這樣一位超強軟體開發者來參與自家專案，這個角色勢必會開始改變企業軟體開發專案的做法。

GitHub Copilot在2021年發布技術預覽版之後，吸引了大量開發者開始運用GAI來輔助軟體開發。隨著模型能力一代代演進，所能生成的開發語言也越來越多，光是GitHub Copilot現在就有能力支援Python、C#、SQL、Java等在內的十多種程式語言的生成，還包括了老舊的大型主機程式語言COBOL，也能透過OpenAI Codex模型與Java語言互相轉換。或像AWS推出的GAI助手Q Developer，可以直接將老舊的Java 8和Java 11版程式碼，直接升級到最新Java 17版本，大幅減少了老舊應用系統現代化改版的重擔。

在o3這樣超強開發能力的模型問世之後，GAI在企業軟體開發中，可以擔任越來越重要的開發角色。不只主流開發工具支援GAI，現在也出現了專門用於AI輔助開發的新興IDE，像是Cursor、Windsurf等。

不只輔助軟體開發，也開始出現更多不同類型的GAI開發助手，像是AWS、微軟Azure和Google雲端，也相繼推出雲端部署GAI助手，可以協助應用程式的部署配置或是協助處理上雲部署的問題。

而AWS更在2024年度大會上揭露了新版Amazon Q Developer，加入了開發文件、程式碼品質審查和測試的AI代理，可以在開發者慣用的IDE中生成文件，甚至是繪製流程圖，也能用來偵測程式碼中的程式臭蟲、邏輯錯誤、程式碼重複、設計模式違例、違反命名規則設計等不同類型等問題，還能提出修改建議，開發者只要審視後按下同意，就能自動更新程式碼，幾乎不用動手自己寫。

在測試輔助上，GAI助手Q Developer可以自動生成單元測試，修正測試涵蓋範圍，也能生成簡單的測試用例。另外也增加了新舊程式碼轉換功能，可以將Windows平臺的.NET應用，轉換到Linux環境可用的版本，或是將本地端VMware虛擬環境的應用，轉移到公雲VM上部署。

GAI從軟體開發、擴展到測試、部署、重構等領域的輔助

GAI在企業軟體開發流程中的角色，不只侷限於開發輔助，而是延伸到測試、部署、重構等更多軟體工程的領域。國際知名顧問公司Gartner以AI增強軟體工程（AI-augmented software engineering），來形容這一類GAI在軟體工程上的輔助或增強機制。Gartner在2024新興科技成熟曲線報告中認為，AI增強軟體工程屬於最快2年，最慢5年會帶來重大影響的新興技術之一，不只能讓開發者快速寫出程式，還是一項可以讓開發者更專注、高度參與、沈浸在心流狀態的生產力提升技術。

這些開發工具的GAI輔助，或是不同專門用途的GAI開發助手，甚至是媲美真人開發老手能力的模型，在2025年都將成為企業IT人可用的工具，這將開始改變IT人在軟體開發流程中的角色，不再是樣樣自己動手的開發黑手，而要扮演衡量GAI程式碼的審查者，甚至是指揮不同任務GAI開發助手，協同完成開發任務的專案管理者。

熱門新聞