圖片來源: 

Google

Google發布能夠直接將一種語言的語音,轉換為另一種語言語音的模型Translatotron,透過單一的注意力Seq2seq網路來直接翻譯語音,中間不需要借助文字資料的轉換,由於避開了分階段式的轉換步驟,因此,該模型具有較高的效能,且降低了語音辨識和翻譯過程中的錯誤風險,直接將原本的語言轉換為目標語言的語言,也能夠更好地處理語句中不需要翻譯的詞句,像是名稱或是特定名詞。

語音之間的翻譯系統的目的,是為了幫助講不同語言的人溝通,這類的翻譯系統通常會包含三個不同的技術,分別為自動語音辨識、機器翻譯和文字轉語音生成技術,將一個語言的語音轉為文字後,透過機器翻譯轉換成另一個語言,再用語音生成技術創造目標語言的語音,Google AI研究院從2016年開始打造Translatotron模型,該模型是端到端的語音翻譯模型,研究結果發現,直接翻譯語音的方式,比起過去分段翻譯的方式更為有效。

Translatotron模型是透過Seq2seq網路,輸入資料為原本語言的聲譜圖(spectrograms),產生翻譯成目標語言內容的聲譜圖,另外Translatotron模型還加入了兩個分別訓練過的網路:將輸出聲譜圖轉換為時域波形的神經聲碼器(vocoder)、在生成翻譯語音時用來維持原始聲音特徵的編碼器,使得翻譯語音聽起來更自然,在訓練的過程中,生成目標語言的聲圖譜時,Seq2seq模型利用多任務目標學習法,同時預測來源和目標文本,不過,過程中沒有任何中間的文字當作參考資料。

熱門新聞

Advertisement