Stability AI推出可生成影片的模型Stable Video Diffusion

Stability AI新模型Stable Video Diffusion是一個可接收使用者文字指令，生成影片和圖像的擴散模型。目前官方釋出預覽版供研究使用，程式碼已經在GitHub上公開，而執行模型所需要的權重，官方也公布在Hugging Face上。

Stable Video Diffusion是第一個以Stable Diffusion模型作為基礎的影片生成模型，官方在其研究論文提到，近來研究人員在原本用於2D圖像生成的潛在擴散模型（Latent Diffusion Model，LDM），加入時間層，並且使用小型、高品質的影片資料集加以訓練，試圖將其改造成影片生成模型。

而Stability AI這個最新的研究，則進一步定義出訓練影片LDM的三個階段，分別是文字到圖像的預訓練、影片預訓練，最後則是高品質影片的微調。研究人員強調，經過良好整理的預訓練資料集，對於產生高品質影片非常重要，甚至還提出一套包括標題製作和過濾策略的系統性整理流程。

研究人員也展示了在高品質資料上微調基礎模型的影響，並訓練出能夠和閉源影片生成模型相匹敵的文字轉影片模型。Stable Video Diffusion還可用於圖像轉影片的生成任務，並且展現出強大的動作表示能力，且適用特定相機運動的LoRA模塊。

目前Stability AI釋出兩個Stable Video Diffusion版本，分別是能夠生成14影格以及25影格的模型，用戶可以自訂每秒影格數在3到30之間。雖然高影格數的影片看起來更順暢，但是在目前的模型限制下，如要產生每秒達30影格數的影片，則兩個模型產生的影片長度皆會少於1秒鐘。

不過，官方將這些基礎模型與其他閉源產品相比較，在用戶的偏好研究中，Stable Video Diffusion的表現都較目前市面上的產品還要好。

熱門新聞