
繼去年公布首個具推理能力的Gemini 2.0 Flash Thinking模型後,Google昨(25)日發表Gemini 2.5模型,作為Gemini新一代模型家族的最新成員,Google宣稱在多項測試中擊敗OpenAI o3-mini、DeepSeek R1等模型。
Gemini 2.0 Flash Thinking和Gemini 2.5是結合強化式學習及思維鏈等技術,但在更好的基礎模型上輔以更有效的後訓練,使效能更為提升。一如OpenAI未來不再區分獨立的推理模型,Google未來也將把這些思維能力整合到所有模型,使其得以處理更複雜問題,支援具情境感知能力的AI代理人。
Gemini 2.5具備100萬字詞(token)的context window,很快會再升級到200萬字詞。這新模型能理解龐大的資料集,處理不同資料源,包括文字、影、音甚至整個程式庫的資料,以解決複雜的問題。
Gemini 2.5將提供多個版本。首先推出的是Gemini 2.5 Pro Experimental,號稱為Google處理複雜任務的最進階模型。根據LMArena的標竿測試結果,Gemini 2.5 Pro Experimental在科學、數學、程式編輯、視覺推理及長脈絡(long context)等測試中,都超越競爭模型如OpenAI o3-mini、GPT-4.5、Claude 3.7 Sonnet或DeepSeek R1,像是科學測試GPQA Diamond得分為84%,數學測試AIME則為86.7%。在推理與知識測試中,Gemini 2.5 Pro拿下18.8%的最佳成績,而在代理人程式撰寫的SWE-Bench Verified測試中,Gemini 2.5 Pro得分63.8%,僅次於Claude 3.7 Sonnet。
Google也示範了Gemini 2.5 Pro可以在輸入一行提示後,撰寫出電玩遊戲的執行檔程式。
Gemini 2.5 Pro Experimental現在透過Google AI Studio提供給開發商及企業,以及付費的Gemini Advanced方案,後者用戶可以在桌機或手機上,在模型下拉選單中選取使用。幾個星期內Gemini 2.5 Pro Experimental也會在Vertex AI平臺上線。