圖片來源: 

Amazon

Amazon本周釋出名為MASSIVE的資料集,供開發商訓練能理解多種語言的數位助理使用的AI模型。

到2023年全球將因智慧型手機的普及而有80多億個AI虛擬助理,還有超過1億臺智慧喇叭。然而大部份虛擬助理都僅能使用1種或僅數種主流語言。此外這些數位助理的訓練還面臨標註資料不足、去除資料訛誤、維護和更新模型的成本等問題,進一步限制了數位助理的口語翻譯的能力。

大量多語自然語言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解決這個問題。Amazon Alexa AI自然語言理解部門科學家Jack FitzGerald指出,這願景下,單一機器學習模型能分析和理解多種語言。透過學習跨語言的共享資料展現(data representation),這個模型可以從有很豐富訓練資料的主流語言學習到的知識,轉移到資料很稀少的語言上。

為推動MMNLU模型建立,Amazon宣布釋出MASSIVE資料集。MASSIVE資料集包含跨51種語言加註過的100萬項話語或單詞(utterance)及開源程式碼。資料集包括訓練、驗證和測試資料,後者則提供MMNLU模型的執行範例,協助AI專案人員建立意圖分類(intent classification)或詞槽填充(Slot Filling)的結果基準線(baseline)。

MASSIVE為平行資料集,意謂每個單詞都有51種語言版本,這可讓模型學習到同一意圖的共享表達方式,可加速自然語言理解(NLP)任務的跨語言訓練,也能用於其他NLP任務,如機器翻譯、多語複述(multilingual paraphrasing)等等。MASSIVE透過CC BY 4.0授權開源,以鼓勵學界及業界使用。

Amazon同時還宣布MMNLU-22競賽(Massively Multilingual NLU 2022),鼓勵開發人員利用MASSIVE資料集建立模型。

熱門新聞

Advertisement