Stability AI在其開發者平臺新增Stable Video Diffusion基礎模型,提供影片生成服務。Stable Video Diffusion API能在平均41秒內,生成包括25影格(Frame)由模型生成的畫面,還有24個由FILM(Frame Interpolation for Large Motion)內插產生的影格畫面,形成一段連續的2秒影片。

Stable Video Diffusion是Stability AI才剛推出的新模型,以擴散模型為基礎,可接受使用者文字指令生成影片。該模型採用原本用於2D圖像生成的潛在擴散模型(Latent Diffusion Model,LDM),加入時間層,並使用小型、高品質的資料集加以訓練而成。

Stability AI當初發布兩個版本的Stable Video Diffusion模型,分別是能夠生成14影格與25影格的影片,而現在最新釋出的API服務,則是採用25影格的版本。Stable Video Diffusion API可應用在廣告、行銷、電視、和遊戲各領域,供開發者以程式化的方式存取影片生成模型。

官方指出,Stable Video Diffusion的重點在於效能和安全性,除了加入24影格的FILM內插畫面,使影片看起來更加順暢之外,還採用浮水印安全措施。透過新API,開發人員可以使用該模型的所有功能,包括控制運動強度、支援各種布局與解析度,以1024x576、768x768和576x1024解析度生成影片,並相容於jpg和png等影像格式。另外,開發者也可以運用種子相關(Seed-based)基礎,選擇重複或隨機生成影片,最終的影片輸出為MP4格式,以滿足發布於各種應用和平臺的需求。

FILM內插是一種影像處理技術,目的是要在兩個既有的影格中間,生成一個或是多個中間影格,該技術主要用於提高影片的影格數,使運動看起來更加流暢,或是用於製作慢動作特效。FILM內插特別適合處理畫面中物體移動較快的場景,因為該演算法能夠估算物體在連續影格中的運動路徑,並根據估算生成新影格,如此不只可增強視覺效果,也可在維持影片品質的前提下,讓動作更加順暢。

當前的影像生成模型大都以擴散模型作為基礎,包括Meta的影片生成模型Emu Video。不過,Google最新的VideoPoet模型則採用不同策略,藉由擴展多模態大型語言模型的能力來生成影片,Google指出,因為大型語言模型在多種模態上優秀的學習能力,因此單一模型就能執行各種影片生成任務,包括文字轉影片、圖片轉影片、影片風格化,影片補繪與擴繪,甚至是影片轉音訊等。

熱門新聞

Advertisement