Stability AI開發者平臺開始提供影片生成模型API服務

Stability AI在其開發者平臺新增Stable Video Diffusion基礎模型，提供影片生成服務。Stable Video Diffusion API能在平均41秒內，生成包括25影格（Frame）由模型生成的畫面，還有24個由FILM（Frame Interpolation for Large Motion）內插產生的影格畫面，形成一段連續的2秒影片。

Stable Video Diffusion是Stability AI才剛推出的新模型，以擴散模型為基礎，可接受使用者文字指令生成影片。該模型採用原本用於2D圖像生成的潛在擴散模型（Latent Diffusion Model，LDM），加入時間層，並使用小型、高品質的資料集加以訓練而成。

Stability AI當初發布兩個版本的Stable Video Diffusion模型，分別是能夠生成14影格與25影格的影片，而現在最新釋出的API服務，則是採用25影格的版本。Stable Video Diffusion API可應用在廣告、行銷、電視、和遊戲各領域，供開發者以程式化的方式存取影片生成模型。

官方指出，Stable Video Diffusion的重點在於效能和安全性，除了加入24影格的FILM內插畫面，使影片看起來更加順暢之外，還採用浮水印安全措施。透過新API，開發人員可以使用該模型的所有功能，包括控制運動強度、支援各種布局與解析度，以1024x576、768x768和576x1024解析度生成影片，並相容於jpg和png等影像格式。另外，開發者也可以運用種子相關（Seed-based）基礎，選擇重複或隨機生成影片，最終的影片輸出為MP4格式，以滿足發布於各種應用和平臺的需求。

FILM內插是一種影像處理技術，目的是要在兩個既有的影格中間，生成一個或是多個中間影格，該技術主要用於提高影片的影格數，使運動看起來更加流暢，或是用於製作慢動作特效。FILM內插特別適合處理畫面中物體移動較快的場景，因為該演算法能夠估算物體在連續影格中的運動路徑，並根據估算生成新影格，如此不只可增強視覺效果，也可在維持影片品質的前提下，讓動作更加順暢。

當前的影像生成模型大都以擴散模型作為基礎，包括Meta的影片生成模型Emu Video。不過，Google最新的VideoPoet模型則採用不同策略，藉由擴展多模態大型語言模型的能力來生成影片，Google指出，因為大型語言模型在多種模態上優秀的學習能力，因此單一模型就能執行各種影片生成任務，包括文字轉影片、圖片轉影片、影片風格化，影片補繪與擴繪，甚至是影片轉音訊等。

熱門新聞