OpenAI o1模型在廣泛的基準測試中,表現都比GPT-4o還要更好

OpenAI推出全新大型語言模型o1,其推理能力大幅提升,在數學、程式設計和博士程度的科學問題等基準測試中表現優異,大幅超越先前發表的GPT-4o模型。o1模型的特點在於透過關聯思考(Chain of Thought),在多數複雜推理任務中表現接近甚至超越人類專家。在最新的美國國際數學邀請賽(AIME)中取得接近全國前500名的成績,o1也是目前第一個在GPQA科學測試中超越人類博士的模型。

圖片來源/OpenAI

OpenAI o1是一個針對複雜推理問題設計的新一代大型語言模型,相較於之前的模型,o1透過強化學習來增強其推理能力,能夠對問題進行深度思考。官方解釋,o1關聯思考(Chain of Thought)的能力模擬人類解題時邏輯推理過程,藉由分步驟分析問題,再做出回應。而這種能力大幅提升o1處理複雜任務的準確性和可靠性。

在數學以及程式設計領域,o1的表現尤為亮眼,展現了解決高難度問題所需要的強大推理能力。以2024年的AIME數學考試為例,o1單次嘗試就可解決74%的題目,而透過共識決方法,也就是經多次解法的綜合判斷,準確度可以提高至93%。在程式設計領域,o1在Codeforces競技程式測試表現也相當優異,針對國際資訊奧林匹亞(International Olympiad in Informatics,IOI)調校的模型變體o1-ioi,其Elo評分達到1807,超過93%的人類競爭者。

圖片來源/OpenAI

o1有能力逐步分析問題,拆解複雜步驟並自動修正錯誤,而透過強化學習,則又能從每次的嘗試中學習改進,持續最佳化其解題技巧,這讓o1模型在解決需要深度推理的問題時,具備更高的準確性、效率和穩定性。

目前OpenAI已經釋出o1早期版本OpenAI o1-preview,使用者已經可以在ChatGPT中進行測試,並開放給部分受信任的API使用者。GitHub也展示了o1模型在程式設計的能力,包括o1-preview如何協助開發者最佳化複雜演算法,甚至找出並解決造成應用程式效能低落的問題程式碼。GitHub官方預計之後會將o1-preview和輕量級o1-mini加入到可選模型的行列,目前開發者需要先透過Azure AI申請早期存取。

除了OpenAI o1在程式設計和數學問題上的先進發展,其他組織也在推進類似的技術進步。DeepMind在今年7月的時候,也展示了其能夠解決數學難題的人工智慧模型AlphaGeometry 2,該模型可解決了2024年國際數學奧林匹亞競賽(IMO)6道數學難題中的4道題目,達到了銀牌得主的水準。不過,AlphaGeometry 2並非典型的大型語言模型,而是基於Gemini語言模型的神經符號(Neuro-Symbolic)混合系統,專門為處理複雜數學問題的推理和解答而設計。

熱門新聞

Advertisement