Meta開源首個多模態語言模型Meta Spirit LM

圖片來源:

GitHub

Meta上周開源了首個多模態語言模型Meta Spirit LM，該模型不論是在輸出或輸入都能整合文字及語音。

傳統的AI語音模型是仰賴自動語音辨識（ASR）來執行轉錄，繼之由大型語言模型來生成文字，再藉由文字轉語音（TTS）將文字變成語音，不過，這樣的處理方式會削弱原有聲音的表達能力。而Meta Spirit LM即可解決此一限制。

Meta Spirit LM是在單字等級的文字及語音資料集上交錯訓練的，目的是讓它具備跨模態生成能力，它有兩種版本，兩者都具備文字模型的語義生成能力，以及語音模型的表達能力，其中，Spirit LM Base使用語音Token來處理語音，而Spirit LM Expressive則是使用音調及風格Token來捕捉語氣，包括興奮、生氣或驚訝，之後生成能夠反映出該語氣的聲音。換句話說，自Spirit LM Base生成的語音聽起來就像是機器人，而Spirit LM Expressive則能帶有情緒。

Meta表示，Meta Spirit LM允許人們生成聽起來更自然的語音，還具備跨模學習新任務的能力，諸如自動語音辨識，文字轉語音，或是語音分類等，期待該研究能夠拋磚引玉，讓社群繼續開發語音與文字的整合。

該研究源自Meta的基礎AI研究（Fundamental AI Research，FAIR）團隊，已開放外界下載其程式碼與模型權重，亦採用FAIR的非商業授權，只能應用在研究、開發、教育或分析，不得用於商業利益或獲利。

熱門新聞