
OpenAI
在12消息連發的最後一天,OpenAI執行長Sam Altman親自宣布具思考能力的旗艦模型進入最新版o3時代。
令人意外的是,9月問世的關聯思考模型o1,並沒有o2版。The Information報導,這可能是因為若叫o2會和英國電信業者o2撞名,迫使OpenAI直接升級為o3。
OpenAI同時宣布o3 mini。它是由o3蒸餾而成的小模型,並為程式撰寫優化速度。OpenAI計畫2025年初陸續部署o3系列模型,包括開放公測。o3 mini將是第一個問世的o3模型,預計2025年初公開使用。目前該公司已開始OpenAI o3的安全測試及紅隊演練,OpenAI邀請安全研究人員申請加入早期版測試。
OpenAI展示,o3在包括程式撰寫、數學解題,以及科學理解等標竿測試都比前代更進一步。其中在ARC AGI測試中,o3系列在低運算量任務的測試得分達75.7%,高運算量任務得分達87.5%,都超越o1系列。
OpenAI說明,o3技術提升的關鍵之一是deliberative alignment(審慎遵循)。這是一種以人為撰寫的文本及可解讀的安全規格教導o系列LLM,並訓練他們在回答用戶查詢前先清楚理解這些規格。研究人員的新訓練方法讓o系列模型使用思維鏈(chain-of-thought,CoT)推理方法來思考用戶提示、從OpenAI內部政策辨識出相關文字,再草擬出更安全的回應。這新訓練方法讓模型得以準確遵循OpenAI的安全政策而無需人類標籤過的CoT或答案。
OpenAI說前一代的o1在此類訓練下,在多項內、外部安全標竿測試中已經大幅超越GPT-4o和其他尖端LLM,且在多種資料集也展現高效能。OpenAI相信這種新方法,可同時用於提升LLM能力以及AI安全性。
為了迎戰新的OpenAI o3模型,Google已在本周稍早公布Gemini 2.0 Flash Thinking實驗模型,供開發人員測試。新模型將能混合圖文、產生多種情感的聲音,還能使用搜尋及程式,可更完美控制代理人。
熱門新聞
2025-02-26
2025-02-25
2025-02-26
2025-02-24
2025-02-24