Nvidia本周發表一個能依文字或音樂檔案提示,生成或修改一首混合音樂、人聲和音效的AI模型,名為Fugatto。

現今已有多家廠商,包括Google、Meta推出可生成短曲、音效、或修改現有音樂的AI模型,但Nvidia公布的Fugatto模型號稱生成技巧超越前者。Fugatto可依據用戶輸入的文字,或上傳的音訊檔案,生成或修改音樂、人聲或聲音的元素組合。例如它可以根據使用者文字提示生成音樂片段、在現有歌曲加入一種樂器聲音(或移除),或是改變人聲腔調或是情感,甚至發展出全新的表現方式。

Fugatto全名為「Foundational Generative Audio Transformer Opus 1」,是一個基礎生成式transformer模型,為Nvidia在之前語音模型、音訊編碼及音訊理解等基礎上的研發成果。模型本身包含25億參數,是在32顆H100 GPU的DGX系統,在一年多期間,以數百萬音訊樣本及文字資料訓練而成。

Fugatto訓練團隊涵括印度、巴西、中國、南韓和約旦。Nvidia指出,研究團隊使用多面向策略產生資料和指令,以確保模型能勝任多種不同任務,他們也審視現有資料集,找出資料間的新關聯性,在不需額外新資料集情況下,使模型學習到新任務且獲致高準確性。

例如Fugatto使用名為ComposableART的技術,把原本個別使用的指令組合起來,像是組合多個指令,例如用戶可要求它用悲傷情緒以法語腔說一段文字,還允許插入不同指令的功能,方便使用者微調,像是腔調濃重或是悲傷程度。

Nvidia貼出了一段影片,展現Fugatto可為電影創造出震撼的配音。

Fugatto還具備時序插入(temporal interpolation)能力,可生成隨時間改變的聲音,像是暴風雨中由近而遠傳遞的雷聲,也提供聲音地景的微調功能。此外,有別於其他多數模型只能重建模型團隊輸入的訓練資料,Fugatto還讓使用者新創造全新的聲音地景,像是風雨過後隨著鳥鳴來到的清晨。

各家業者目前皆積極開發生成音樂、人聲及音效的AI技術。ElevenLabsDeepMind都在開發幫影片配音的技術、Meta去年公布可同時接受文字和音訊輸入的AudioBoxOpenAI也在今年稍早公布了以15秒樣本生成人聲的模型。

熱門新聞

Advertisement