MLCommons釋出多語言口語大型語音辨識資料集

全球開放非營利組織MLCommons發布第一個多語言口語語料庫（Multilingual Spoken Words Corpus，MSWC）版本，這個大規模資料集包含50種不同語言的口語音訊資料，而且資料集容量還持續不斷增加。MSWC的貢獻者包含來自Coqui、Factored、Google、哈佛大學、英特爾、Landing AI、Nvidia和密西根大學的研究人員。

MSWC資料集內容包含的50種語言，涵蓋全球50億人口，對於不少語言來說，MSWC是第一個可用來訓練語音介面的公開免費資料集，官方在MSWC使用CC-BY 4.0授權對外釋出，來促進全球關鍵字探索、口語搜尋和各種學術與商業應用，官方提到，他們的最終目標是要讓基於語音的關鍵字辨識介面，能夠支援更多語言的關鍵字。

目前語音互動技術已經普及，無論是Apple Siri、Amazon Alexa，還是Google的語音助理，都已經搭載至用戶的手機和智慧裝置上，關鍵字辨識系統使用低功耗的硬體來持續監聽關鍵短語，以觸發像是開燈或是喚醒複雜介面的動作，對於視障人士等，更是足以改變其生活方式。

但官方提到，強大的語音互動功能，需要使用大型資料集來訓練機器學習模型，這些關鍵字資料集需要付出大量的資源，從不同的說話者和背景環境中，收集並驗證每個包含關鍵字的語句，而現在多數公共關鍵字資料集，都為單語言並且只包含少數關鍵字，許多常用的語言缺乏可用的公共資料集，使得要為這些語言使用者，提供基本的語音功能更為困難。

MLCommons所開發和維護的MSWC資料集，便是要解決這個問題，MSWC是一個包含50種語言的口語大型語音辨識資料集，該資料集總共包含超過34萬個單詞和2,300萬個一秒音訊樣本，總共有超過6,000小時的語音，官方提到，他們利用開源工具，從Common Voice群眾外包專案收集的句子中，擷取單詞來建構這個資料集，語音助理開發者便可以使用這個資料集，訓練模型聽懂各種語言的關鍵字。

在MSWC資料集中，有12種高資源語言，具有超過100小時的資料，12種中等資源語言，擁有10到100小時不等的音訊資料，而其中26種是低資源語言，只有不到10小時的音訊，而MSWC資料集中，有46種語言的資料，是該語言唯一的開源口語資料集。

熱門新聞