AI新創公司ElevenLabs在預告二個月後,上周終於公布音效或人聲生成的AI工具。

ElevenLabs專門從事語音和聲音應用研究,去年公布AI聲音生成的AI平臺Text to Speech,可讓用戶在文字對話中設定性別、年齡、口音和說話風格合成逼真人聲,並於同年募得近2,000萬美元的A輪資金。ElevenLabs今年2月搭上OpenAI影片AI生成模型Sora列車,預告可為影片配音的AI聲音模型,並在上周正式向大眾公開Text to Sound Effects,包括免費版及付費版。

Text to Sound Effects目的在為電影或電視節目、電玩開發商,甚至社群內容創作者、個人提供工具,使其得以快速且大規模生成豐富、沈浸式聲音場景,而且不需大成本。只要在提示視窗輸入文字,就可以生成音效、22秒的樂器演奏音訊、聲音場景或各種角色聲音。該公司網頁並提供多種範例說明輸入的文字提示和生成音效,包括動物叫聲、打雷、爆炸聲、恐怖電影音效,或是吉他等樂器演奏。

為訓練這新工具,ElevenLabs和知名圖庫和音訊平臺Shutterstock合作,以其多樣化及高品質的合法聲音檔微調其AI模型。

Text to Sound Effects並提供用戶微調工具,讓用戶能針對一種物件再細分出不同類別,例如「腳步聲」可以文字再微調成是高跟鞋、靴子或球鞋,或是走在沙地、雪地或葉子上的聲音。完成後,用戶可選擇下載聲音或儲存在ElevenLabs平臺上。

Text to Sound Effects提供免費及付費版。付費版是透過在付費帳號供用戶使用。免費版用戶需要在生成的音樂加上elevenlabs.io,以說明來自ElevenLabs。付費帳號用戶則不需註明。不過不論是哪個版本,版權責任都由使用者自付。

收費標準是根據生成音訊的長度控制參數計算。若用戶設定為最適長度,會被收取200字元的費用,如果用戶想自行控制長度,則會被設定該長度每秒40字元的費用。收費是每執行4次生成計算一次。收費是每次呼叫(而非下載),即每按一次「Generate」就多一次費用。但若用戶認為計算結果有誤,需自行向業者(team@elevenlabls.io)反映。

根據ElevenLabs說明,付費帳號分成3類。Creator為0.30美元/1,000字元,Pro為 0.24美元/1,000字元,Scale則為 0.18美元/1,000字元。

熱門新聞

Advertisement