Google宣布在其文字轉人聲(Text-to-Speech,TTS)API推出自定義語音功能,該新功能讓用戶可以使用自己的錄音,訓練自定義語音模型,以創造出獨特的語音體驗。官方提到,對於想要建立品牌形象的企業而言,使用獨特的聲音,有助於在互動式語音應用中,建立具差異化的用戶體驗。

自定義語音讓用戶只需要提交錄音,就可以直接在TTS API中存取新語音,系統提供指南,指引用戶生成高品質自定義TTS語音模型的方法,當模型訓練完成後,用戶只需要在呼叫TTS API時,參照模型ID,就可以開始使用新訓練的語音模型。

Google考量負責任的AI治理程序,評估了自定義語音TTS以及合成媒體的道德疑慮,為減輕可能造成的潛在危害,用戶在採用自定義TTS之前,需要經過一個審查流程,確保每個用例皆符合Google的AI原則,並且要求驗證配音員,提供Google雲端指定語句的音訊檔案,以算是取得配音員的同意。

目前自定義TTS自定義語音功能正式支援包括英語、西班牙語、法語、義大利語、德語、葡萄牙語和日語,其他語言則還需要再等等。

熱門新聞

Advertisement