Nvidia公布可生成混合音樂、人聲音效的AI模型Fugatto

Nvidia本周發表一個能依文字或音樂檔案提示，生成或修改一首混合音樂、人聲和音效的AI模型，名為Fugatto。

現今已有多家廠商，包括Google、Meta推出可生成短曲、音效、或修改現有音樂的AI模型，但Nvidia公布的Fugatto模型號稱生成技巧超越前者。Fugatto可依據用戶輸入的文字，或上傳的音訊檔案，生成或修改音樂、人聲或聲音的元素組合。例如它可以根據使用者文字提示生成音樂片段、在現有歌曲加入一種樂器聲音（或移除），或是改變人聲腔調或是情感，甚至發展出全新的表現方式。

Fugatto全名為「Foundational Generative Audio Transformer Opus 1」，是一個基礎生成式transformer模型，為Nvidia在之前語音模型、音訊編碼及音訊理解等基礎上的研發成果。模型本身包含25億參數，是在32顆H100 GPU的DGX系統，在一年多期間，以數百萬音訊樣本及文字資料訓練而成。

Fugatto訓練團隊涵括印度、巴西、中國、南韓和約旦。Nvidia指出，研究團隊使用多面向策略產生資料和指令，以確保模型能勝任多種不同任務，他們也審視現有資料集，找出資料間的新關聯性，在不需額外新資料集情況下，使模型學習到新任務且獲致高準確性。

例如Fugatto使用名為ComposableART的技術，把原本個別使用的指令組合起來，像是組合多個指令，例如用戶可要求它用悲傷情緒以法語腔說一段文字，還允許插入不同指令的功能，方便使用者微調，像是腔調濃重或是悲傷程度。

Nvidia貼出了一段影片，展現Fugatto可為電影創造出震撼的配音。

Fugatto還具備時序插入（temporal interpolation）能力，可生成隨時間改變的聲音，像是暴風雨中由近而遠傳遞的雷聲，也提供聲音地景的微調功能。此外，有別於其他多數模型只能重建模型團隊輸入的訓練資料，Fugatto還讓使用者新創造全新的聲音地景，像是風雨過後隨著鳥鳴來到的清晨。

各家業者目前皆積極開發生成音樂、人聲及音效的AI技術。ElevenLabs、DeepMind都在開發幫影片配音的技術、Meta去年公布可同時接受文字和音訊輸入的AudioBox。OpenAI也在今年稍早公布了以15秒樣本生成人聲的模型。

熱門新聞