挑戰方言和口語的機器翻譯難題，微軟靠遷移學習解決相對應語句訓練資料不足問題

繼微軟3月中發布AI機器中翻英程度達到人類專業水準之後，最近又持續挑戰機器翻譯的難題-方言和口語，透過遷移學習將訓練資源高的語言轉移到資源低的語言上，搭配半監督式學習方法，解決了對應語句訓練資料不足的問題，成功開發出高品質的方言和口語翻譯器。

機器翻譯通常仰賴兩種語言的平行對應語料資料庫來訓練模型，像是前陣子中翻英的模型即用了數千萬個平行語句當作訓練資料，不過，由於大多數的方言和口語都沒有足夠的相對應語料當作訓練資料集，翻譯方言和口語一直是機器翻譯的一大難題之一。

除了沒有足夠的訓練資料之外，方言和口語也沒有固定的風格和形式，與正式的書面文件和社群媒體上的文字都不相同，要取得平行語句也是更加困難。

為了解決這個問題，微軟利用半監督式的方法來訓練翻譯神經網路，只需要數千對平行語句當作訓練資料，就能產生高品質的翻譯結果。

微軟首先利用了遷移學習的方法，將跨多種語言資源的詞彙和句子表示成一種目標語言，不同語言來源將會包含資源高和低，系統的目標即是要讓學習模型共享來源，進而增強資源較低的語言，微軟的系統架構針對神經機器翻譯框架調整了2個地方，進而讓半監督式的方法變得可行。

在詞彙的部分，微軟透過通用詞彙表示（ULR）來共享不同語言的詞彙，另外，微軟還用了專家模型來代表所有語言源的句子共享，透過這兩項修改，能夠讓較少資源的語言用詞彙和句子特徵，來對應到資源較高的語言中。

在微軟的實驗中，微軟首先用一般的方式訓練模型，來進行多語言翻譯，模型使用了6,000個平行句子來學習翻譯羅馬尼亞語和英語，以及拉脫維亞語和英語。

接著，微軟則是先在高資源的語言上訓練模型，再套用到低資源的語言上，並進行微調，該模型也是用了羅馬尼亞語對應英語的6,000個平行句子訓練，經過微調，模型可以在2分鐘內將預先訓練好的模型轉移到新的低資源語言上。

熱門新聞