人工智慧新創Coqui開發了新的低資源零樣本文字轉語音(Text-to-Speech,TTS)模型YourTTS,具有合成多種語言語音的能力,重要的是,該模型能夠利用共同學習技術,從各語言的訓練資料集轉換知識,來有效降低需要的訓練資料量,像是能以大量英語資料集進行共同學習,在YourTTS中添加巴西葡萄牙語。

端到端深度學習模型不停地發展,現在文字轉語音已經能夠產生令人驚豔的自然聲音,研究人員表示,過去這些模型所使用的資料集,都需要單一說話者在專業環境中,錄製20到40小時的大量聲音。這種方式並非適用於每個人,難以擴展至多種語言和說話者,更別說主流研究通常不會針對低資源語言,因此也就更難普及。

Coqui所釋出的YourTTS模型,便是要來解決這些問題,其主要有幾項特性,第一是能以單一模型合成多種語言的語音,第二是以單個模型,合成具有不同聲音的語音,第三則是零樣本學習,在不重新訓練模型的情況下,調整模型來合成新說話者的語音。用戶還能透過微調YourTTS預先訓練的模型,學習新的說話者或是語言,YourTTS也能將語音轉換成另外一種語言,或是改變特定語音的聲音。

Coqui擴展其早前的研究成果SC-GlowTTS,開發出YourTTS。YourTTS使用一種稱為VITS的模型作為主幹,該模型在端到端文字轉語音上使用對抗學習和變分推理(Variational Inference)。研究人員還在YourTTS上,使用比過去更大的文字編碼器,YourTTS會使用單獨訓練的說話者編碼器模型,來計算說話者的嵌入向量,並將說話者的資訊傳遞給模型的其他部分。

研究人員解釋,VITS是一種特殊的TTS模型,因為結合使用了不同的深度學習技術,能夠實現高品質的自然聲音輸出,其主要建立在GlowTTS模型之上,而GlowTTS模型的特性是輕巧,善於處理長句子,收斂速度也很快,但是其最大的缺點,是難以輸出自然且具表現力的聲音。而研究人員改進GlowTTS發展出VITS,能夠產生更高傳真度和準確韻律的語音。

研究人員將YourTTS,與AttentronZS和SC-GlowTTS產生的結果相比,YourTTS在平均主觀意見得分(Mean Opinion Score,MOS)更高,而且在許多情況,YourTTS的表現比資料集中真實語音剪輯更好。

在零樣本語音轉換上,無論是英語語音轉換成葡萄牙語,還是男性和女性聲音互換,都有良好的MOS值。經實驗,YourTTS只需要說話者20秒的語音,就足夠調整模型,以說話者的聲音產生高品質的語音輸出。

現在已經可以在瀏覽器直接試用YourTTS,用戶只要提供自己的語音錄音,並且選擇目標語言,YourTTS就能夠以用戶的聲音,以目標語言念出用戶所輸入的文字。由於這項技術存在被濫用的可能性,Coqui正研究各種方法來防止TTS被用於惡意目的上,而在YourTTS的範例中,用戶所產生的語音會添加背景音樂,避免被用於意料之外的用途上。

熱門新聞

Advertisement