全球開放非營利組織MLCommons發布第一個多語言口語語料庫(Multilingual Spoken Words Corpus,MSWC)版本,這個大規模資料集包含50種不同語言的口語音訊資料,而且資料集容量還持續不斷增加。MSWC的貢獻者包含來自Coqui、Factored、Google、哈佛大學、英特爾、Landing AI、Nvidia和密西根大學的研究人員。

MSWC資料集內容包含的50種語言,涵蓋全球50億人口,對於不少語言來說,MSWC是第一個可用來訓練語音介面的公開免費資料集,官方在MSWC使用CC-BY 4.0授權對外釋出,來促進全球關鍵字探索、口語搜尋和各種學術與商業應用,官方提到,他們的最終目標是要讓基於語音的關鍵字辨識介面,能夠支援更多語言的關鍵字。

目前語音互動技術已經普及,無論是Apple Siri、Amazon Alexa,還是Google的語音助理,都已經搭載至用戶的手機和智慧裝置上,關鍵字辨識系統使用低功耗的硬體來持續監聽關鍵短語,以觸發像是開燈或是喚醒複雜介面的動作,對於視障人士等,更是足以改變其生活方式。

但官方提到,強大的語音互動功能,需要使用大型資料集來訓練機器學習模型,這些關鍵字資料集需要付出大量的資源,從不同的說話者和背景環境中,收集並驗證每個包含關鍵字的語句,而現在多數公共關鍵字資料集,都為單語言並且只包含少數關鍵字,許多常用的語言缺乏可用的公共資料集,使得要為這些語言使用者,提供基本的語音功能更為困難。

MLCommons所開發和維護的MSWC資料集,便是要解決這個問題,MSWC是一個包含50種語言的口語大型語音辨識資料集,該資料集總共包含超過34萬個單詞和2,300萬個一秒音訊樣本,總共有超過6,000小時的語音,官方提到,他們利用開源工具,從Common Voice群眾外包專案收集的句子中,擷取單詞來建構這個資料集,語音助理開發者便可以使用這個資料集,訓練模型聽懂各種語言的關鍵字。

在MSWC資料集中,有12種高資源語言,具有超過100小時的資料,12種中等資源語言,擁有10到100小時不等的音訊資料,而其中26種是低資源語言,只有不到10小時的音訊,而MSWC資料集中,有46種語言的資料,是該語言唯一的開源口語資料集。

熱門新聞

Advertisement