圖片來源: 

Meta

Meta上周預告最新AI影片生成模型Meta Movie Gen家族,可生成高品質的圖片和影片、音效或配樂,效能優於包括OpenAI Sora等競爭對手。新模型工具預計明年登上IG。

Meta執行長祖克柏(Mark Zuckerberg)透過Threads公布可生成和編輯影片的Movie Gen AI模型,預告2025年將登上Instagram(IG)。祖克柏還展示了Movie Gen將他健身用的腿推機變化成羅馬時期、農村、工業機械及太空科技風格的器械,其中羅馬時期影片的他還換上了羅馬武士服裝。

目前Movie Gen還在開發中,在官方部落格中,Meta稱它是其AI媒體研究的重大突破,具備多模態能力,包括圖片、影像和聲音,讓開發人員輸入文字提示即可產生自製影片和音訊、編輯現有影片,或是將圖片轉化為影片。Meta聲稱Movie Gen效能品質在許多任務上已超越業界類似模型,包括Open AI Sora。

Movie Gen為Meta最新一代AI影片生成工具。第一代是2022年公布能產製影音、圖片和3D動畫的Make-A-Scene,第二代是基於擴散模型的Llama Image基礎模型,後者提供更高影音品質及圖片編輯功能。Movie Gen屬於第三代,融合所有模態,允許使用者更大的影片控制能力。。

Movie Gen是以經授權或公開可用的資料集,所訓練而成的300億參數Transformer模型。它是一組具備引人入勝說故事能力的模型,具備4種模型版本,包括影片生成、個人化影片生成、精準影片編輯及聲音生成版本。

Movie Gen基礎模型具備物體動作、主題和物件互動、以及相機運動的理解能力,還能學習多種概念的動作,例如它能生成特寫、廣角、空照、低角度、第一人視角的影片,而且克服了生成影片常出現的物件扭曲/模糊、動作不自然、或罕見動作不完整(如貓熊彈鋼琴)。在影片功能上,Movie Gen能產出16 fps的高畫質16秒影片。在基礎版Movie Gen之外,Meta也提供允許以文字或影片控制、微調生成結果的版本。

此外並有可影片精準編輯版本,讓用戶以文字或影片提示精準控制想要的效果。這個版本讓用戶在生成的影片增加、移除或取代部份元素,或是變更背景及修改風格。Meta並強調,不同於別家工具,這項新工具不但具備更精準控制、不需要專業背景,它生成過程會保留原始內容,而只針對相關像素施以變更。

Movie Gen還有一個130億參數的聲音生成模型版本,可接收影片或文字提示,生成最長45秒和影片同步的音訊,包括環境音、音效,或是樂器背景音樂。Meta還提供音訊延長工具,可生成任意長度的影片所需的聲音,並兼顧聲音品質、影音同步、文字聲音同步的效果需求。

Meta論文提供的A/B人為評估測試,比較Movie Gen和市面模型,包括Runway Gen3、OpenAI Sora、Kling 1.5、PikaLabs Sound的整體Net Win Rate,其中在影片生成效果方面,Meta的模型和Kling差不多,優於OpenAI Sora,並大勝Runway Gen 3,其他三項能力則大勝對手模型。

而和前代模型一樣,Movie Gen也將成為Meta未來多項新服務的底層引擎。除了IG,Meta預告,新模型未來也會整合在其他平臺產品中,包括提供以文字提示生成短影片Reels、或是生成祝福以WhatsApp傳送等。

熱門新聞

Advertisement