
OpenAI
OpenAI在周三(4/16)發表了全新的o3推理模型與輕量的o4-mini推理模型,這兩個新模型最大的特點是具備視覺推理與圖像操作能力,將圖像納入推論過程並對其進行多步驟的視覺分析,可自動對圖像進行縮放、旋轉及剪裁等操作。
o系列是OpenAI的推理模型,強調具備關聯性思考能力,但它們在回答之前會思考更長的時間,在回覆使用之前採用了很長的內部思考鏈。OpenAI是在去年9月正式發表o1,也有輕量級的o1-mini與專業級的o1-pro;OpenAI跳過了o2型號,並在今年2月率先釋出o3 mini;於本周同時釋出o3與o4 mini。
o3與o4 mini最令人驚豔的應該是它們的圖像思考及推理能力,這兩個模型可藉由各種工具來轉換使用者所上傳的圖像,讓這些圖像得以裁剪、放大與旋轉,還能執行其它簡單的圖像處理技術。
例如當使用者上傳了一張今天在海邊拍的照片,遠方的海面上有許多船隻,他將照片上傳並詢問最大艘的船隻叫什麼名字,以及它之後會停靠在哪個港口。由於船隻太遠,o3只好先將照片放大,辨識出使用者的位置,找到最大艘的船,辨識船隻的名字,再上網搜尋以給出答案,但總計花了好幾分鐘。
OpenAI表示,使用者可以上傳白板的照片、教科書圖表或手繪的草圖,就算是圖像模糊、顛倒或品質不佳,模型還是可以透過工具動態地處理圖像,當作它推理的一部分。
圖片來源/OpenAI
除了圖像推理能力之外,OpenAI o3擔當該公司目前最強大的推理模型,不管是在程式碼、數學、科學與視覺感知上都有所進步,強調適合需要多方面分析的複雜查詢,根據外部專家的評估,它在困難的現實任務上所犯的重大錯誤比OpenAI o1少了20%。
OpenAI比較了o3、o4-mini、o1與o3-mini在解決數學問題、高階科學問題、多模態推理能力、程式碼任務,以及指令遵循上的表現,皆可發現o3與o4-mini明顯優於前一代的產品。
o3每輸入100萬個Token的價格為10美元,輸出100萬個Token的價格為40美元;o4-mini每輸入及輸出100萬個Token的價格,則分別是1.1美元及4.4美元。