圖片來源: 

Google

Google本周宣布,Google翻譯已利用PaLM 2大型語言模型新增對110種新語言的支援,包括香港地區所使用的粵語、巴基斯坦最常用的Punjabi,以及已失去最後一位母語人士的Manx等,讓現在的Google翻譯所支援的語言達到243種。

此次Google所支援的新語言代表全球超過6.14億的使用者,約占全球人口的8%,有些是使用人數超過1億的主要語言,但大多數是土著的小社群在使用,也有少數幾乎沒有母語人士。整體而言,約有1/4的新語言來自非洲。

其中,粵語長期以來一直是Google翻譯最需要的語言之一,但因為粵語在寫作上經常跟普通話重疊,因此很難找到資料並訓練模型。Manx則是英國曼島(Isle of Man)的傳統語言,為凱爾特(Celtic)語族的語言,其最後一位母語者已在1974年去世,現在僅有數千人使用Manx。另一個有趣的語言則是NKo,它是西非曼丁(Manding)語系的一種標準化形式,將所有方言統一為一種通用語言,還擁有一個專門替它開發資源與技術的活躍社群,NKo的字母是在1949年才發明。

Google說明,在增添翻譯服務的新語言時,Google考慮了各種變種與拼法,因為不同的地區及方言,都有不同的拼寫標準,且有很多語言缺乏標準形式,很難出現所謂的正確變種,因此Google優先考慮每種語言最常用的變種,並利用PaLM 2模型來學習相近的各種語言,隨著技術的進步再加上與專業語言學家及母語人士的合作,未來的Google翻譯可望支援更多的語言變體及拼法慣例。

對新語言的支援將直接出現在網頁、Android及iOS的Google翻譯服務上。

熱門新聞

Advertisement