與其他模型相比,Google的通用語音模型(USM)具有較低的單詞錯誤率

Google在去年的時候宣布,將要建構一個能夠支援1,000種語言的機器學習模型,現在釋出階段性研究成果,Google的通用語音模型(USM)已經能夠支援100種語言,這項成果目前發表在arXiv論文預印本網站。

研究人員提到,傳統的監督式學習方法欠缺可擴展性,要將語音技術擴展至更多的語言,便需要有足夠多的資料訓練高品質模型。過去資料準備的常見方法,需要以人工手動標記音訊資料,而這是耗時且昂貴的過程,更何況對於缺乏資源的語言,更是難以收集足夠的訓練資料。而自我監督式的學習,反而可以利用純音訊資料,因此更可能達到擴展至數百種語言的目標。

Google的通用語音模型則是使用自我監督式學習,運用大型未標記的多語言資料集預訓練模型編碼器,並使用較小的標記資料集進行微調,使模型能夠辨識缺乏資源的語言。通用語音模型具有20億參數,使用1,200小時的語音和280億條文字句子進行訓練。

通用語音模型主要用於YouTube,不只可以對英語和漢語執行自動語音辨識,甚至還可以辨識資源缺乏的阿薩姆語、馬達加斯加語和宿霧語等。目前通用語音模型能夠對100多種語言執行自動語音辨識,儘管該模型所使用的標記訓練資料集,僅有Whisper模型的七分之一,但是在跨多種語言的語音辨識任務,卻有相同甚至更佳的表現。

通用語音模型在其中73種語言,平均每種語言的訓練資料不到3,000小時,卻實現了低於30%的單詞錯誤率,而這是Google過去從未達到的成果。在各種公開的資料集測試,包括CORAAL、SpeechStew和FLEURS,與Whisper模型相比較,通用語音模型的單詞錯誤率都較低。研究人員還利用CoVoST資料集微調通用語音模型,和Whisper的語音翻譯能力進行比較,通用語音模型無論是在資源可用性低、中和高的語言,BLEU分數都較Whisper更佳。

熱門新聞

Advertisement