Meta最新開發的生成式語音模型Voicebox,可被應用在語音生成、去噪和內容編輯等各式語音任務,生成高品質的語音,官方提到,Voicebox是第一個未針對特定任務訓練,就可以泛化處理各式語音生成任務的模型。由於這個模型過於強大,存在遭到濫用的風險,因此Meta決定不公開Voicebox模型和程式碼,僅公開音訊樣本和論文供學術研究使用。

類似圖像與文字生成模型,只不過Voicebox生成的為語音訊號,該模型可以完全從頭開始創建6種語言的語音,並且執行去除噪音、內容編輯、風格轉換和多樣化樣本生成等任務。研究人員提到,在Voicebox之前,生成語音的人工智慧,都要使用特別準備的訓練資料,對每一項語音任務進行針對性訓練,而Voicebox則使用了Flow Matching新方法,可直接從原始音訊和轉錄文字中學習。

只要使用原始音訊和轉錄文字就能夠進行學習,在音訊處理和語音生成上有一定的好處,因為當前許多語音合成以及語音辨識模型,需要對訓練資料進行繁瑣的前處理,並且運用經處理的資料進行訓練,而這會大幅增加模型訓練成本。

另外,與自我迴歸模型(Autoregressive Model)不同的是,Voicebox可以修改樣本的任意部分,而不只有音訊片段的結尾,因此Voicebox在編輯音訊和創建長且連續的音訊內容上將更具優勢,因為自我迴歸模型通常只能生成和修改一小部分音訊,因此需要大量的計算時間,才能生成足夠長的音訊片段。

Flow Matching方法正是Voicebox強大的原因,該方法能夠學習文字和語音之間高度非確定性映射。所謂的非確定映射,指得是文字到語音的非一對一轉換關係,像是同一段文字可以被讀出來的方式有很多種,以不同的語速、音調、重音和口音表達,就代表了不同的意思。

傳統語音模型需要經過對訓練資料進行精細後處理,像是標記每個音節和音位的位置,或是由人工以特定的音調和語速讀出文字,而這不僅耗費大量時間,也需要專業知識。Voicebox非確定性映射的能力,讓模型可以從未經標記的變化中學習,也就是說,研究人員可以用更大範圍和多樣化的資料學習,並生成更具自然度和表現力的語音。

Voicebox經過5萬小時的語音錄音訓練,這些語音片段來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公領域錄音和轉錄文字訓練。Voicebox在學會根據上下文填充語音後,便能夠被用於各種語音生成任務中,只要輸入一段語音樣本和轉錄文字,Voicebox就能以該語音的風格朗讀出該段文字。Voicebox還能夠編輯語音片段,像是重新合成被噪音破壞的段落,或是替換口誤的句子。

這個研究的重要性在於,Voicebox是第一個成功泛化語音任務的多功能、高效模型,Meta公開論文詳述Voicebox的方法和成果,同時還介紹高效分類器的建置方法,該分類器可以區分Voicebox生成和真實語音。生成語音模型有許多新興場景可應用,但同時也有被濫用的風險,目前Meta不會公開Voicebox模型和程式碼,但考量促進人工智慧社群的研究,因此選擇僅釋出音訊樣本和研究論文。

熱門新聞

Advertisement