Stability AI釋出文字生成聲音模型開源版本Stable Audio Open

Stability AI周三（6/5）釋出了文字生成聲音模型的開源版本Stable Audio Open，在使用者輸入文字描述後，它便能生成長達47秒的樣本與聲音效果。

Stability AI以超過48萬個聲音紀錄來訓練Stable Audio Open模型，其中超過9成的紀錄來自Freesound，另有少數來自「免費音樂檔案」（Free Music Archive ，FMA），所有的音訊檔都取得了免費的共享許可，並使用預訓練的T5（Text-to-Text Transfer Transformer）文字模型來處理與生成文本。

Stable Audio Open讓使用者輸入簡單的文字提示，即可生成最多長達47秒的高品質聲音，Stability AI宣稱它很適合用來建立鼓點、音樂即興片段、環境音效、模擬錄音，或是其它與音樂及聲音有關的樣本。開源版本的好處之一還包括使用者可以利用自己的聲音資料來調整模型，例如鼓手可以加入自己的錄音樣本來生成新的節奏。

其實該公司在去年9月便先推出了商業版的Stable Audio，同時提供免費與付費方案。Stability AI解釋，Stable Audio可生成高品質、完整且長達3分鐘的連貫音樂結構，而Stable Audio Open則專注於聲音樣本、音效與製作元素，儘管Stable Audio Open能夠生成簡短的音樂，但並未針對完成的歌曲、旋律或人聲進行優化。

使用者也可逕自利用Stable Audio免費版來測試與Stable Audio Open的差異，Stable Audio Open 1.0現階段則可透過Hugging Face取得。

熱門新聞