ChatGPT跨入第三方應用軟體生態圈,讓ChatGPT的人機互動範圍走出OpenAI的產品線,讓真人和更多第三方應用軟體進行人機協作。(圖片來源/OpenAI)

對分散在全球200國的200萬名OpenAI開發者而言,第九天的發表會是十二天發表會中,最重要的一場,OpenAI平臺產品負責人Olivier Godement發表了一系列的開發者功能,最重要的一項就是新一代推理模型o1的API。另外還有兩項將會大大影響GAI應用程式開發的關鍵功能,一項是新的模型微調方法稱為「偏好微調」(Preference Fine Tuning),另一項則是即時聲音串流Realtime API的大升級,另外還有一些較小但也影響深遠的發表,像是推出了Go和Java版的Open AI SDK套件。

第9天:開發者終於可以用API使用新一代推理模型o1

o1推理模型釋出的API中,包括了函式呼叫、結構化輸出、開發者訊息等新功能,其中開發者訊息是原本系統訊息功能的替代版本,另外也推出了新的模型參數Reasoning effort,這是用來控制o1的思考時間長短。簡單問題可以用短一點的時間思考,來節省算力和成本,等到複雜問題才增加更多算力來思考。o1也發表了視覺輸入API,可輸入圖片到o1模型來分析了,「視覺輸入API是許多製造業和科學家最想增加的功能。」 Olivier Godement補充。

OpenAI也用Playground開發試驗工具,來展示如使用o1來發現稅單文件上的錯誤,他掃描了一份2023所得稅報稅稅單上傳,要求o1檢查填錯的內容。模型也找出了一個拼字錯誤,以及另一個兩頁資料不一致的問題,這得靠視覺理解才能發現的錯誤。在這項展示中,工程師內建了三個所得稅計算函式,函式需要提供詳細的描述,才能讓模型知道如何使使用這個函式,作為模型判斷要不要用的依據。就可以要求模型試算,2024年收入改變時,新的稅額是多少。

模型回答的內容也可以輸出成結構化的JSON格式,開發者可以先輸入一個JSON架構檔,讓o1模型參考這個架構,來輸出百分之百符合的JSON結果,方便來進行另一段程式的處理。

正式版o1的函式呼叫正確性,也比GPT-4o高了許多,根據OpenAI的測試GPT-4o呼叫到正確函式的比例不到90%,但o1模型正式版的正確率達到了95%,包括呼叫了正確的函式,以及沒有呼叫錯誤不該使用的函式。而在JSON結果輸出的正確性上,GPT-4o輸出結果可以達到95%的正確性, o1可以達到幾乎100%的正確性,幾乎符合開發者的JSON規範要求。

(圖片來源/OpenAI)

在LLM常用的軟體開發評比LiveBench分數,統計到2025年1月底,o1正式版是名列第一的模型,平均總分達到75.67之高,除了推理分數,在程式碼撰寫分數和數學分數都高於其他主流模型,也比o1預覽版的54.79分,提高了不少,只有在資料分析分數、語言支援,IF判斷分數上,略輸幾名。

新版模型效率上也有優化,o1思考需要的Token數量,也比o1預覽版減少了60%,不只可以大幅加快反應速度,也可以降低使用模型的成本。不過,目前o1 Pro版還沒有支援API,Olivier Godement預告,他們正在努力中,也會盡快支援。

在第9天還有一項特別發表的新功能,就是OpenAI的即時語音對話服務RealTime API開始支援開源的網頁即時通訊技術Web RTC。這是一項用來處理透過網際網路傳輸的複雜內容交換的技術。常見的網際網路視訊會議,低延遲串流都可以使用Web RTC來完成。

舊版Realtime API採取的是伺服器對伺服器端的對接,主要用於AP後端的整合,但在會第9天發表中,新增加了對Web RTC的支援,最大的差別,新能力是用戶端AP的連線API,意味著開發者可以在前端Web應用中,直接嵌入Realtime API的程式碼,就能讓企業自家App具有ChatGPT的進階語音能力。

Olivier Godement強調,有了Web RTC支援,要打造一個具有ChatGPT視訊功能的網頁App非常容易。開發者只需要做三件事,第一,先在網頁程式上建立一個使用者與Realtime API的一對一連結(Peer Connection),讓Realtime API生成的任何語音,可以直接回送到使用者端接收。第二,則是要截取設備的麥克風聲音,送到Realtime API。最後一項是,建立一個WebRTC的Offer和Answer連線呼叫,這是一個多媒體資料的交換機制,WebRTC可以自動處理技術細節都,不用開發者自己動手,透過本地端https的post發送機制就能做到。

根據OpenAI的展示,這三個步驟的JavaScript程式碼,只需要12行程式就能做到,若是用WebSocket網路協定來達到同樣的功能,大概需要至少200到250行程式才能完成。OpenAI也釋出了這段程式碼,開發者只要將API金鑰換成個人金鑰就可以使用。

OpenAI工程師還展示了一項特別的Realtime API應用,在馴鹿玩偶上,安裝一個不到5分錢硬幣大小的音訊處理晶片,就可以讓這個玩偶具備ChatGPT進階語音對話能力,與真人對話。

這意味著,可以將ChatGPT真人語音對話能力,放到穿戴式裝置中,智慧居家環境中的低階監視器,低階麥克風設備等,來打造一個具有真人流暢對話能力的情境感知助手。RealTime API增加WebRTC技術支援後,大大降低了語音助手設備的開發門檻和成本,也更容易在不同環境,辦公室、工廠、車輛,只要有無線網路和可連結Realtime API的端點裝置即可。

隨著Realtime API升級,OpenAI也將GPT-4o的音訊Token價格降低了60%,而低階的4o-mini模型也可以支援Realtime API,價格只有4o模型的十分之一。

OpenAI工程師展示了一項特別的Realtime API應用,在馴鹿玩偶上,安裝一個不到5分錢硬幣大小的音訊處理晶片,就可以讓玩偶具備ChatGPT進階語音對話能力。這意味著,可以將ChatGPT真人語音對話能力,放到穿戴式裝置或智慧居家設備,來打造一個具有真人流暢對話能力的情境感知助手。(圖片來源/OpenAI)

模型客製化需求是開發者最大宗的需求之一,OpenAI也增加了一項新的模型微調機制,偏好微調preference fine tuning。這種微調功能,使用了一項使用直接偏好優化技術(Direct Preference Optimization),類似增強式學校,但是不是透過獎勵分數來增強。微軟Azure AI將這項功能命名為 直接偏好優化(Direct Preference Optimization,簡稱DPO)而非偏好微調。

目前OpenAI提供監督式微調(Supervise Fine Tuning)和新推出的增強式微調(Reinforcement Fine Tuning)。多數人目前用的是監督式微調,這種微調,要提供正確的一問一答,輸入與輸出的正確對應樣本資料,來訓練模型。

但是偏好微調用的訓練資料不一樣,一個問題,要提供兩個一組的回答,一個回答是想要達到的答案,另一個回答是不想要生成的答案。偏好微調訓練過程,會分辨和學會這兩種答案的差異,來提供模型生成結果的客製化。

這些差異像是回應格式,回答風格,甚至是像是生成摘要的特質要偏向有用還是要有創意等。也就是說,這種偏好微調特別適合用於寫作、內容創作類的客製化,可以用來強化想要的生成文章風格或格式,減少產生不想要的形式。尤其,企業文件有一定的格式和規格,這種偏好微調,就特別適合用這種微調模式。

偏好微調可以跟原本的監督式微調搭配,讓模型生成的答案更準確,回答內容的形式也更符合企業的偏好。偏好微調方式也有新的超參數beta可調整,可以用來調整回答內容的發散程度。

微軟Azure AI去年底先從 GPT-4o-2024-08-06這版本,開始支援DPO公開預覽版功能,預計下一個支援的模型是 GPT-4o-mini-2024-07-18版本。

有一家金融AI新創RoboAI,就有一個特別的偏好微調用法,用來調整使用者輸入的問題,讓原本模糊的真人提問問題,變成更清楚的問題,再送到對話機器人中讓AI助手回答,來得到更相關的答案。

用原本的監督式微調只能提高75%的回答正確性,改用偏好微調後,正確性提高到了80%,凸顯了新的微調作法,確實有成效。

另外OpenAI SDK的支援語言,也新增加了Go和Java,原本只有支援Python,Node,.NET,現在有多了兩種語言,這兩種語言都是傳統大型應用系統慣用的開發語言,尤其是Java,這也意味著Open AI更容易和傳統大型應用系統整合,將Open AI的GAI技術整合到更多類型的企業應用系統中。

第10和11天,擴大觸及領域,桌面版ChatGPT能和第三方AP協作

第10天和第11天的發表重點,都是OpenAI跨入了新的領域,先來看第10天的發表,OpenAI發表了一個電話服務1-800-ChatGPT號碼,也能用WhatsApp來撥打這個號碼,撥通後,就可以和ChatGPT對話,就像是使用Web版或行動App版的進階語音功能一樣的對話。

(圖片來源/OpenAI)

這一步讓OpenAI的產品,跨出了網際網路技術領域,進入傳統電話服務體系,不用安裝App,使用傳統電話設備,例如市內電話,也能打給ChatGPT,再加上ChatGPT在十二天發表中也增加了網路搜尋能力,兩項新功能的結合,可以讓不擅長手機App操作的老爺爺,只要拿起電話打到這支電話號碼,就能詢問ChatGPT來幫忙查詢餐廳,天氣等各種網路資訊,ChatGPT也會透過電話直接告訴老爺爺,讓ChatGPT的能力擴大到更多不諳技術的族群。

延續著第10天,擴大ChatGPT觸及領域的發表策略,在第11天的發表,則是讓ChatGPT跨入了第三應用軟體的生態圈整合,這讓ChatGPT的人機互動範圍,走出了OpenAI的產品線,可以讓真人和更多第三方應用軟體進行人機協作。目前先支援MacOS,很快也會推出Windows作業系統的支援版本。

像是Apple Notes、Notion、TextEdit、Quip等,也支援多款主流軟體開發工具系列,像是 Xcode、VS Code系列(包括Code、Code Insiders、VSCodium、Cursor、Windsurf),還有 Jetbrains系列(包括了 Android Studio、IntelliJ、PyCharm、WebStorm、PHPStorm、CLion、Rider、RubyMine、AppCode、GoLand、DataGrip),這涵蓋了大多數人常用的軟體開發工具。

因為這些應用程式傳送到ChatGPT的內容,都會成為ChatGPT帳戶的對話之一,也會遵循OpenAI的使用條款,一般使用者資料可能會OpenAI用來訓練模型,企業級訂閱服務才預設排除使用。使用ChatGPT與第三方應用的整合時,得留意這個問題,或者調整預設為不用於訓練,或使用臨時性對話(Temporary Chat)功能,就不會用於訓練。

ChatGPT可以讓真人和更多第三方應用軟體進行人機協作,直接讀取多款應用程式在螢幕上秀出的內容,例如Xcode的程式碼,Notion的文件或是Warp、iTerm等終端機模擬器最新200行的指令。目前先支援MacOS,很快也會推出Windows作業系統的支援版本。(圖片來源/OpenAI)

最後一天,打敗16萬真人開發者的新一代o3推理模型亮相

最後一天的發表會上,再次由Sam Altman親自揭露了新一代推理模型o3,這款模型,不論在數學解題、科學理解、程式碼開發等標竿測試中,再次大幅超確了o1。

新版o3最大特色是程式設計能力的大幅躍進,根據OpenAI揭露的資料,在軟體工程標竿測試SWE-bench Verified測試上,o3達到71.7%的分數,這個測試是針對2千多個真實Python函式庫問題修改請求,o3可以解決了其中71.7%的問題,這也反映出o3解決實際不同軟體開發領域問題的能力。

根據OpenAI發表會揭露的數據,o3的分數遠高於o1的48.9%,多解決了近2成的開發問題,這個分數也高於競爭對手產品,例如Google最新的Gemini 2.0 Flash可以解決51.8%的問題,而Claude Sonnet 3.5也差不多只解決了50.8%的問題。雖然這項測試主要針對Python,而無法完全類推到其他語言也有同樣的能力水準,但是可以說,o3對這些真實程式碼的修補能力,已經達到有經驗Python開發者的水準。

OpenAI在十二天馬拉松線上發表會的最後一天壓軸,發表了新一代推理模型o3,在號稱全球最難的程式競賽平臺Codeforces的解題分數上,o3模型的得分(Competition code)達到2,727高分,相當於2024年12月底排名175名的成績,在16萬8千多人參賽開發者中,超越了99.9%的真人開發者。(圖片來源/OpenAI)

從另一個測試,更能夠反映出o3與真人軟體開發者的比較,在號稱全球最難的程式競賽平臺Codeforces的解題分數上,o3模型的得分(Competition code)達到2,727高分,相當於2024年12月底排名175名的成績,在16萬8 千多人參賽開發者中,超越了99.9%的真人開發者。OpenAI在今年初已經釋出o3-mini版模型,也宣布2025將部署完整的o3模型。目前正透過安全測試計畫,招募資安人員來驗證o3的安全性。

o3-mini模型API釋出後,也會支援Reasoning Effort新參數,可以設定三種模式來調整o1思考時間長短。例如將Reasoning Effort設定為高,使用最長的時間推理,可以讓o3-mini在Codeforces程式競賽的分數,從原本的1650分提高到2073分數,可以達到前3千名的高分,超過16萬真人開發者。開發者很快就可以拿到o3-mini的API來試用。

熱門新聞

Advertisement