OpenAI推出新語音模型，增強語音辨識準確度與語氣控制能力

OpenAI宣布推出新一代語音轉文字與文字轉語音模型，擴展API功能強化多語言語音代理開發能力。新模型在語音辨識準確度、語音合成表現與客製化能力皆有提升，相較於舊版Whisper與其他競爭對手模型，在字詞錯誤率（WER）方面表現良好。

新語音轉文字模型gpt-4o-transcribe與gpt-4o-mini-transcribe在多語言語音辨識上進行強化，透過強化學習與大規模語音資料集預訓練，提升對不同語言、口音、語速變化與噪音環境的適應能力。根據FLEURS基準測試結果，gpt-4o-transcribe的WER明顯低於Whisper-large-v2與Whisper-large-v3，特別是在英語、歐洲語系與部分亞洲語言的表現優於競爭對手，而在中文、阿拉伯語、印地語等語言的準確度仍有進步空間。

OpenAI同時推出新一代文字轉語音模型gpt-4o-mini-tts，強化語音輸出的可調整性，開發者可透過指令控制語氣與風格，例如讓語音代理以同理心客服或沉穩播報員的方式說話，提供語音應用更高的靈活度。OpenAI仍維持對語音合成技術的安全管控，目前僅提供人工預設語音，並透過監測確保語音輸出符合既定標準。

這次OpenAI語音模型的提升主要來自於數個重要改進。首先，OpenAI採用了針對語音資料的特化預訓練，使模型能夠更精確地學習語音中的細微變化與語境關係。其次，透過進階的模型蒸餾技術，較小的模型gpt-4o-mini-transcribe與gpt-4o-mini-tts得以從更大型的模型學習語音轉錄與語音合成的能力，確保運算效率與準確率。此外，語音轉文字模型採用強化學習機制，以進一步降低轉錄錯誤與語音錯誤辨識的發生率，特別是在低資源語言與非標準語音的處理穩定有所提升。

OpenAI API的語音轉文字與文字轉語音功能目前已全面開放，並提供與Agents SDK的整合，簡化語音應用開發流程。

熱門新聞