圖片來源:
GitHub
Meta上周開源了首個多模態語言模型Meta Spirit LM,該模型不論是在輸出或輸入都能整合文字及語音。
傳統的AI語音模型是仰賴自動語音辨識(ASR)來執行轉錄,繼之由大型語言模型來生成文字,再藉由文字轉語音(TTS)將文字變成語音,不過,這樣的處理方式會削弱原有聲音的表達能力。而Meta Spirit LM即可解決此一限制。
Meta Spirit LM是在單字等級的文字及語音資料集上交錯訓練的,目的是讓它具備跨模態生成能力,它有兩種版本,兩者都具備文字模型的語義生成能力,以及語音模型的表達能力,其中,Spirit LM Base使用語音Token來處理語音,而Spirit LM Expressive則是使用音調及風格Token來捕捉語氣,包括興奮、生氣或驚訝,之後生成能夠反映出該語氣的聲音。換句話說,自Spirit LM Base生成的語音聽起來就像是機器人,而Spirit LM Expressive則能帶有情緒。
Meta表示,Meta Spirit LM允許人們生成聽起來更自然的語音,還具備跨模學習新任務的能力,諸如自動語音辨識,文字轉語音,或是語音分類等,期待該研究能夠拋磚引玉,讓社群繼續開發語音與文字的整合。
該研究源自Meta的基礎AI研究(Fundamental AI Research,FAIR)團隊,已開放外界下載其程式碼與模型權重,亦採用FAIR的非商業授權,只能應用在研究、開發、教育或分析,不得用於商業利益或獲利。
熱門新聞
2024-11-29
2024-11-20
2024-11-15
2024-11-15
2024-12-19
Advertisement