圖片來源: 

GitHub

Meta上周開源了首個多模態語言模型Meta Spirit LM,該模型不論是在輸出或輸入都能整合文字及語音。

傳統的AI語音模型是仰賴自動語音辨識(ASR)來執行轉錄,繼之由大型語言模型來生成文字,再藉由文字轉語音(TTS)將文字變成語音,不過,這樣的處理方式會削弱原有聲音的表達能力。而Meta Spirit LM即可解決此一限制。

Meta Spirit LM是在單字等級的文字及語音資料集上交錯訓練的,目的是讓它具備跨模態生成能力,它有兩種版本,兩者都具備文字模型的語義生成能力,以及語音模型的表達能力,其中,Spirit LM Base使用語音Token來處理語音,而Spirit LM Expressive則是使用音調及風格Token來捕捉語氣,包括興奮、生氣或驚訝,之後生成能夠反映出該語氣的聲音。換句話說,自Spirit LM Base生成的語音聽起來就像是機器人,而Spirit LM Expressive則能帶有情緒。

Meta表示,Meta Spirit LM允許人們生成聽起來更自然的語音,還具備跨模學習新任務的能力,諸如自動語音辨識,文字轉語音,或是語音分類等,期待該研究能夠拋磚引玉,讓社群繼續開發語音與文字的整合。

該研究源自Meta的基礎AI研究(Fundamental AI Research,FAIR)團隊,已開放外界下載其程式碼與模型權重,亦採用FAIR的非商業授權,只能應用在研究、開發、教育或分析,不得用於商業利益或獲利。

熱門新聞

Advertisement