ElevenLabs公布AI音效、人聲生成模型

AI新創公司ElevenLabs在預告二個月後，上周終於公布音效或人聲生成的AI工具。

ElevenLabs專門從事語音和聲音應用研究，去年公布AI聲音生成的AI平臺Text to Speech，可讓用戶在文字對話中設定性別、年齡、口音和說話風格合成逼真人聲，並於同年募得近2,000萬美元的A輪資金。ElevenLabs今年2月搭上OpenAI影片AI生成模型Sora列車，預告可為影片配音的AI聲音模型，並在上周正式向大眾公開Text to Sound Effects，包括免費版及付費版。

Text to Sound Effects目的在為電影或電視節目、電玩開發商，甚至社群內容創作者、個人提供工具，使其得以快速且大規模生成豐富、沈浸式聲音場景，而且不需大成本。只要在提示視窗輸入文字，就可以生成音效、22秒的樂器演奏音訊、聲音場景或各種角色聲音。該公司網頁並提供多種範例說明輸入的文字提示和生成音效，包括動物叫聲、打雷、爆炸聲、恐怖電影音效，或是吉他等樂器演奏。

為訓練這新工具，ElevenLabs和知名圖庫和音訊平臺Shutterstock合作，以其多樣化及高品質的合法聲音檔微調其AI模型。

Text to Sound Effects並提供用戶微調工具，讓用戶能針對一種物件再細分出不同類別，例如「腳步聲」可以文字再微調成是高跟鞋、靴子或球鞋，或是走在沙地、雪地或葉子上的聲音。完成後，用戶可選擇下載聲音或儲存在ElevenLabs平臺上。

Text to Sound Effects提供免費及付費版。付費版是透過在付費帳號供用戶使用。免費版用戶需要在生成的音樂加上elevenlabs.io，以說明來自ElevenLabs。付費帳號用戶則不需註明。不過不論是哪個版本，版權責任都由使用者自付。

收費標準是根據生成音訊的長度控制參數計算。若用戶設定為最適長度，會被收取200字元的費用，如果用戶想自行控制長度，則會被設定該長度每秒40字元的費用。收費是每執行4次生成計算一次。收費是每次呼叫（而非下載），即每按一次「Generate」就多一次費用。但若用戶認為計算結果有誤，需自行向業者（team@elevenlabls.io）反映。

根據ElevenLabs說明，付費帳號分成3類。Creator為0.30美元/1,000字元，Pro為 0.24美元/1,000字元，Scale則為 0.18美元/1,000字元。

熱門新聞