
OpenAI宣布推出新一代語音轉文字與文字轉語音模型,擴展API功能強化多語言語音代理開發能力。新模型在語音辨識準確度、語音合成表現與客製化能力皆有提升,相較於舊版Whisper與其他競爭對手模型,在字詞錯誤率(WER)方面表現良好。
新語音轉文字模型gpt-4o-transcribe與gpt-4o-mini-transcribe在多語言語音辨識上進行強化,透過強化學習與大規模語音資料集預訓練,提升對不同語言、口音、語速變化與噪音環境的適應能力。根據FLEURS基準測試結果,gpt-4o-transcribe的WER明顯低於Whisper-large-v2與Whisper-large-v3,特別是在英語、歐洲語系與部分亞洲語言的表現優於競爭對手,而在中文、阿拉伯語、印地語等語言的準確度仍有進步空間。
OpenAI同時推出新一代文字轉語音模型gpt-4o-mini-tts,強化語音輸出的可調整性,開發者可透過指令控制語氣與風格,例如讓語音代理以同理心客服或沉穩播報員的方式說話,提供語音應用更高的靈活度。OpenAI仍維持對語音合成技術的安全管控,目前僅提供人工預設語音,並透過監測確保語音輸出符合既定標準。
這次OpenAI語音模型的提升主要來自於數個重要改進。首先,OpenAI採用了針對語音資料的特化預訓練,使模型能夠更精確地學習語音中的細微變化與語境關係。其次,透過進階的模型蒸餾技術,較小的模型gpt-4o-mini-transcribe與gpt-4o-mini-tts得以從更大型的模型學習語音轉錄與語音合成的能力,確保運算效率與準確率。此外,語音轉文字模型採用強化學習機制,以進一步降低轉錄錯誤與語音錯誤辨識的發生率,特別是在低資源語言與非標準語音的處理穩定有所提升。
OpenAI API的語音轉文字與文字轉語音功能目前已全面開放,並提供與Agents SDK的整合,簡化語音應用開發流程。
熱門新聞
2025-03-17
2025-03-17
2025-03-18
2025-03-18
2025-03-19
2025-03-20
2025-03-17