Google昨(22)日宣布釋出具推理能力的Gemini 2.0 Flash Thinking AI模型最新實驗版(Experimental),不但數學和科學推理效能上升,也會撰寫和執行程式。
最新釋出的模型為Gemini 2.0 Flash Thinking Experimental 01-21(Exp 01-21),以去年12月公布的Gemini 2.0 Flash Thinking為基礎開發,為挑戰OpenAI的o3模型。名稱中的Thinking代表相對於Gemini Flash,這家族模型具有解決複雜問題的推理能力,以及新穎的思考能力,它對用戶詢問會先經過「思考」再做出回應。
Gemini 2.0 Flash Thinking具備100萬字詞的context windows,可支援大量文字的深度分析,且思考和答案更具一致性(較少矛盾),能產生更長字詞的回應,數學和科學解題能力也更提升。最新Exp 01-21版和前一個實驗版(Exp 1219)的標竿測試比較中,數學標竿測試AIME 2024,Exp 01-21和Exp 1219跑分分別為73% vs. 70%、科學標竿測試GPQA Diamond分別為74% vs. 66%,標竿測試分別為74% vs. 66%。
Google員工還補充,最新版本加入使用和評估程式碼的能力,因此模型可以在回應時決定寫或執行程式。DeepMind執行長Demis Hassabis說,這顯示光在12月Gemini 2.0 Flash Thinking就展現極快進展。
現在Exp 01-21版Gemini 2.0 Flash Thinking模型已部署到AI Studio,開發人員可以在AI Studio側邊欄啟用,也可直接使用Gemini API在程式碼中使用實驗模型。
另一方面,OpenAI也在加緊趕工,目前正在測試o3 mini,OpenAI預告再幾個星期就會推出。
熱門新聞
2025-01-20
2025-01-20
2025-01-20
2025-01-20
2025-01-21