OpenAI新一代具關聯思考能力的模型o1，可逐步分析推理精確解答問題

OpenAI o1模型在廣泛的基準測試中，表現都比GPT-4o還要更好

OpenAI推出全新大型語言模型o1，其推理能力大幅提升，在數學、程式設計和博士程度的科學問題等基準測試中表現優異，大幅超越先前發表的GPT-4o模型。o1模型的特點在於透過關聯思考（Chain of Thought），在多數複雜推理任務中表現接近甚至超越人類專家。在最新的美國國際數學邀請賽（AIME）中取得接近全國前500名的成績，o1也是目前第一個在GPQA科學測試中超越人類博士的模型。

圖片來源／OpenAI

OpenAI o1是一個針對複雜推理問題設計的新一代大型語言模型，相較於之前的模型，o1透過強化學習來增強其推理能力，能夠對問題進行深度思考。官方解釋，o1關聯思考（Chain of Thought）的能力模擬人類解題時邏輯推理過程，藉由分步驟分析問題，再做出回應。而這種能力大幅提升o1處理複雜任務的準確性和可靠性。

在數學以及程式設計領域，o1的表現尤為亮眼，展現了解決高難度問題所需要的強大推理能力。以2024年的AIME數學考試為例，o1單次嘗試就可解決74％的題目，而透過共識決方法，也就是經多次解法的綜合判斷，準確度可以提高至93％。在程式設計領域，o1在Codeforces競技程式測試表現也相當優異，針對國際資訊奧林匹亞（International Olympiad in Informatics，IOI）調校的模型變體o1-ioi，其Elo評分達到1807，超過93％的人類競爭者。

圖片來源／OpenAI

o1有能力逐步分析問題，拆解複雜步驟並自動修正錯誤，而透過強化學習，則又能從每次的嘗試中學習改進，持續最佳化其解題技巧，這讓o1模型在解決需要深度推理的問題時，具備更高的準確性、效率和穩定性。

目前OpenAI已經釋出o1早期版本OpenAI o1-preview，使用者已經可以在ChatGPT中進行測試，並開放給部分受信任的API使用者。GitHub也展示了o1模型在程式設計的能力，包括o1-preview如何協助開發者最佳化複雜演算法，甚至找出並解決造成應用程式效能低落的問題程式碼。GitHub官方預計之後會將o1-preview和輕量級o1-mini加入到可選模型的行列，目前開發者需要先透過Azure AI申請早期存取。

除了OpenAI o1在程式設計和數學問題上的先進發展，其他組織也在推進類似的技術進步。DeepMind在今年7月的時候，也展示了其能夠解決數學難題的人工智慧模型AlphaGeometry 2，該模型可解決了2024年國際數學奧林匹亞競賽（IMO）6道數學難題中的4道題目，達到了銀牌得主的水準。不過，AlphaGeometry 2並非典型的大型語言模型，而是基於Gemini語言模型的神經符號（Neuro-Symbolic）混合系統，專門為處理複雜數學問題的推理和解答而設計。

熱門新聞