Meta昨(6)日宣布完成開發能翻譯200種語言的機器翻譯單一AI模型NLLB 200,同時將把該模型及訓練用的資料集一同開源出來。

Meta為實現元宇宙跨語言互動而開發的高品質機器翻譯系統NLLB(No Language Left Behind),該公司宣稱,最新完成的單一AI模型NLLB-200能翻譯200種不同語言,且精確度相較前代技術,翻譯品質平均分數提升44%。

這是繼2020年底Meta開源的M2M-100後,最新一個機器翻譯單一AI模型。當時還叫臉書的Meta首先將首個不需透過英語、可直接翻譯兩種語言,共能翻譯100種語言的AI模型M2M-100開源出來。

Meta強調,NLLB-200對少數語言的支援。該公司指出,這個模型支援一些其他模型不支援或支援度極差的語言,像是肯亞東部的坎巴語(Kamba)和老撾(Lao,或寮國)語。Meta說,一些常用的(Google)機器翻譯技術支援的非洲語言不到25種。相較之下,NLLB-200支援55種非洲語言,所有支援的200種語言涵括地球數十億人口。

除了支援語言數量多,Meta也聲稱能達到高品質的翻譯水準。和前代相較,NLLB-200在FLORES-101標竿測試1萬種可能方向的BLEU(bilingual evaluation understudy)得分平均高44%。在部份非洲及印度語言中,NLLB-200的精確度更是拉高70%

Meta表示,其NLLB機器翻譯系統將可支援臉書News Feed、Instagram及其他平臺每日250億次翻譯。高品質而精準的翻譯除了可加速用戶的使用方便性,也有助於辨識這些平臺上的有害內容及不實資訊,防止介入選舉,減少性剝削和人口販運等不法行為。

現在維基百科編輯使用的內容翻譯工具已經整合NLLB建模技術,來翻譯20多種資料量很少的稀有語言,包括10種之前完全沒有機器學習工具支援的語言。

為了訓練NLLB-200,Meta也建立了資料集FLORES-200,在開發過程中,讓研究人員評估4萬種不同語言翻譯方向下NLLB-200的效能。今天Meta宣布把NLLB-200及訓練該模型的FLORES-200開源出來供外界開發及測試用。

同時Meta也宣布提供20萬美元獎金,徵求利用NLLB-200開發出的主題應用,包括永續性、食物安全、性別暴力、教育或其他支援聯合國永續開發目標的主題領域,鼓勵非營利組織利用NLLB-200翻譯2種以上非洲語言,或是語言學、機器翻譯和語言技術相關研究人士試用

除了NLLB-200之外,Meta還釋出其他資源。為了能在更多語言蒐集精準的平行文本,Meta改進了自然語言處理(NLP)零樣本移轉(zero-shot transfer)工具LASER,現為LASER 3。LASER 3是以掩碼語言建模(Masked Language Modeling)為目標以自我監督方式訓練成的Transformer模型,而非LSTM,效能更提升,且加入了語言分組專用的encoder,大幅擴充LASER 3的語言涵蓋面及產出更大量的句對。Meta也宣布開源LASER 3給其他研究人員,同時將不同語言數十億對的句子文本開放出來,這些句子已經經過AI技術的梳理。

熱門新聞

Advertisement