Google發表具推理能力的Gemini 2.5，效能擊敗o3-mini、DeepSeek R1

圖片來源:

Google

繼去年公布首個具推理能力的Gemini 2.0 Flash Thinking模型後，Google昨（25）日發表Gemini 2.5模型，作為Gemini新一代模型家族的最新成員，Google宣稱在多項測試中擊敗OpenAI o3-mini、DeepSeek R1等模型。

Gemini 2.0 Flash Thinking和Gemini 2.5是結合強化式學習及思維鏈等技術，但在更好的基礎模型上輔以更有效的後訓練，使效能更為提升。一如OpenAI未來不再區分獨立的推理模型，Google未來也將把這些思維能力整合到所有模型，使其得以處理更複雜問題，支援具情境感知能力的AI代理人。

Gemini 2.5具備100萬字詞（token）的context window，很快會再升級到200萬字詞。這新模型能理解龐大的資料集，處理不同資料源，包括文字、影、音甚至整個程式庫的資料，以解決複雜的問題。

Gemini 2.5將提供多個版本。首先推出的是Gemini 2.5 Pro Experimental，號稱為Google處理複雜任務的最進階模型。根據LMArena的標竿測試結果，Gemini 2.5 Pro Experimental在科學、數學、程式編輯、視覺推理及長脈絡（long context）等測試中，都超越競爭模型如OpenAI o3-mini、GPT-4.5、Claude 3.7 Sonnet或DeepSeek R1，像是科學測試GPQA Diamond得分為84%，數學測試AIME則為86.7%。在推理與知識測試中，Gemini 2.5 Pro拿下18.8%的最佳成績，而在代理人程式撰寫的SWE-Bench Verified測試中，Gemini 2.5 Pro得分63.8%，僅次於Claude 3.7 Sonnet。

Google也示範了Gemini 2.5 Pro可以在輸入一行提示後，撰寫出電玩遊戲的執行檔程式。

Gemini 2.5 Pro Experimental現在透過Google AI Studio提供給開發商及企業，以及付費的Gemini Advanced方案，後者用戶可以在桌機或手機上，在模型下拉選單中選取使用。幾個星期內Gemini 2.5 Pro Experimental也會在Vertex AI平臺上線。

熱門新聞