OpenAI提供實驗版本GPT-4o長輸出模型，局部開放ChatGPT進階語音模式

OpenAI宣布ChatGPT進階語音模式將逐步開放給ChatGPT Plus用戶。（圖片來源／OpenAI）

OpenAI接連推出新服務，本周再公布二項新服務，分別是GPT-4o 64K長輸出模型以及可以逼真人聲對話的ChatGPT進階語音模式（Voice Mode）功能。

本周稍早OpenAI推出實驗性版本的GPT-4o長輸出（long output）模型。這個模型下，每次提示最多可輸出64K token的回應，讓開發人員可以實驗具有更長completion（即ChatGPT提供完整的回答）的新應用場景。64K token是5月上線的GPT-4o最大輸出詞元（4K token）的16倍。

GPT-4o長輸出模型目前以Alpha測試開放使用，模型名稱為gpt-4o-64k-output-alpha。雖然是測試版，但OpenAI表示，就推論觀點而言，更長completion意謂更高成本，因此輸入費用為6.00美元/100萬token，輸出費用為18美元/100萬token。

至於如何加入試用，根據OpenAI討論區一名用戶的說法，開發人員可以透過API發送https://api.openai.com/v1/models/gpt-4o-64k-output-alpha呼叫，如果有回傳結果，表示用戶有權加入測試。

第二項服務則是能以逼真人聲和用戶對話的ChatGPT進階語音模式（Voice Mode），向一小部分用戶開放。OpenAI說明進階語音模式比5月向世人展示時，能執行更即時、更自然的互動，允許用戶打岔，還能感受並回應用戶情緒。

5月OpenAI公布以多模態模型GPT4o為基礎的GPT 4.0時，展示令人驚豔的對話能力。GPT 4.0語音模式設計上可提供5種聲音，預定6月底上線，但其中一個名為Sky的聲音卻被爆出和美國女演員Scarlett Johansson極為相似，她本人也發聲抗議OpenAI未經過其同意使用其聲音。OpenAI雖然否認用了Johansson的聲音，但隨後仍然移除Sky，並延後一個月推出語音模式。該公司聲稱是為了「強化模型偵測和拒絕某些內容的能力」。

ChatGPT進階語音模式最新上線的聲音是除了Sky以外的4種。OpenAI表示，這些預設聲音是以聲優的聲音為基礎製成，並且讓ChatGPT無法冒充他人，包括個人或公眾人物的聲音，也會禁止這些預設聲音以外的聲音輸入。

長輸出模型及進階語音模式是繼GPT-4o mini模型及相關微調工具後，OpenAI推出GPT-4o的最新服務。

這波開放中，OpenAI僅允許特定用戶透過Alpha測試計畫使用ChatGPT進階語音模式，該公司計畫在未來幾周內逐步開放給更多付費Plus方案用戶，而在秋天開放所有Plus方案用戶使用。

熱門新聞