繼微軟3月中發布AI機器中翻英程度達到人類專業水準之後,最近又持續挑戰機器翻譯的難題-方言和口語,透過遷移學習將訓練資源高的語言轉移到資源低的語言上,搭配半監督式學習方法,解決了對應語句訓練資料不足的問題,成功開發出高品質的方言和口語翻譯器。

機器翻譯通常仰賴兩種語言的平行對應語料資料庫來訓練模型,像是前陣子中翻英的模型即用了數千萬個平行語句當作訓練資料,不過,由於大多數的方言和口語都沒有足夠的相對應語料當作訓練資料集,翻譯方言和口語一直是機器翻譯的一大難題之一。

除了沒有足夠的訓練資料之外,方言和口語也沒有固定的風格和形式,與正式的書面文件和社群媒體上的文字都不相同,要取得平行語句也是更加困難。

為了解決這個問題,微軟利用半監督式的方法來訓練翻譯神經網路,只需要數千對平行語句當作訓練資料,就能產生高品質的翻譯結果。

微軟首先利用了遷移學習的方法,將跨多種語言資源的詞彙和句子表示成一種目標語言,不同語言來源將會包含資源高和低,系統的目標即是要讓學習模型共享來源,進而增強資源較低的語言,微軟的系統架構針對神經機器翻譯框架調整了2個地方,進而讓半監督式的方法變得可行。

在詞彙的部分,微軟透過通用詞彙表示(ULR)來共享不同語言的詞彙,另外,微軟還用了專家模型來代表所有語言源的句子共享,透過這兩項修改,能夠讓較少資源的語言用詞彙和句子特徵,來對應到資源較高的語言中。

在微軟的實驗中,微軟首先用一般的方式訓練模型,來進行多語言翻譯,模型使用了6,000個平行句子來學習翻譯羅馬尼亞語和英語,以及拉脫維亞語和英語。

接著,微軟則是先在高資源的語言上訓練模型,再套用到低資源的語言上,並進行微調,該模型也是用了羅馬尼亞語對應英語的6,000個平行句子訓練,經過微調,模型可以在2分鐘內將預先訓練好的模型轉移到新的低資源語言上。

熱門新聞

Advertisement