圖片來源: 

DeepMind

Google旗下的人工智慧公司DeepMind日前釋出原始音頻生成模型WaveNet的相關論文,WaveNet是一套採用神經網路技術來模擬真人聲音的系統。DeepMind聲稱,WaveNet模擬的真人語音比現在的文字轉語音系統(Text-To-Speech)還要自然,且更加接近真人的聲音。

過去的文字轉語音技術使用大量的簡短語音片段與單詞發音的規則資料,來訓練電腦產生語音資訊的系統,並重新形成完整的語音語句。

而WaveNet則是直接一次產生一個原始音頻訊號的波形,能夠學習多種聲音的特色,包含女人、男人,甚至音樂的音訊,也能學習人類說話時的呼吸和嘴唇動作,甚至能加入情感或口音,來增加語音的多樣性。

WaveNet可以產生更多的自然音訊,也能模擬更多種類的音頻,也就是說,使用英語語音的資料訓練WaveNet系統,就會產生英語語音,用中文語音資料則會產生中文語音,而用古典鋼琴音樂的資料集來訓練WaveNet系統,系統就會產生古典鋼琴音樂。

根據DeepMind,WaveNet製作原始音頻的模型,通常需要處理每秒至少1萬6千個以上的樣本音訊,且這種方式是建立真實語音資訊的必備條件。另外,DeepMind也在官網釋出部分的WaveNet語音檔案範本。

熱門新聞

Advertisement