Meta延續之前在圖像生成基礎模型Emu上的研究,發表僅用文字指令就能準確編輯圖像的Emu Edit模型。另外,透過分解文字轉影片(Text-to-Video,T2V)的生成過程,開發團隊發展一種稱為Emu Video的方法,可以改善最終影片的品質和多樣性。

Emu Edit是一種創新的影像編輯方法,目的是要簡化各種影像操作任務,替影像編輯提供更方便的功能和更高的精確度。Emu Edit可以接受用戶指令,進行各種形式的編輯,包括區域和全域編輯、移除和添加背景,也能夠調整顏色並進行幾何轉換,偵測和分割任務也沒有問題。

Emu Edit把電腦視覺任務當作指令,納入到影像生成模型中,進而在影像生成和編輯中,提供更好的控制能力。研究人員指出,當前的圖像編輯模型,通常會過度修改圖像,或是修改不足,而Emu Edit的優勢在於能夠準確按照指令進行編輯。

Meta使用了1,000萬個合成樣本資料集訓練Emu Edit,這是目前同類中規模最大的資料集,每個樣本都包含輸入圖像、任務描述,以及目標輸出圖像。更大的資料集帶來更好的圖像編輯能力,使模型能夠忠實執行指令,產生比當前所有研究都要好的結果。

Emu Video則是一種簡單且高效的文字轉影片生成方法,該方法運用擴散模型,並以Emu作為實作基礎。開發團隊解釋,這種影片生成架構,能夠應對多種輸入,包括文字、圖像,或是文字和圖像的組合。

Emu Video將影片生成過程拆分為兩個步驟,首先是根據文字提示生成圖像,然後基於文字和生成圖像產生影片。這種拆分步驟的影片生成方法,讓研究人員可以有效地訓練生成模型,研究人員進一步解釋,這與過去Make-A-Video等需要一系列深層模型的研究不同,Emu Video更簡單,僅使用2個擴散模型,就能生成解析度512x512,每秒16影格長4秒鐘的影片。

人類的評估都更偏好Emu Video的成果,與之前的研究相比,在影片的品質以及文字提示的忠實程度都有更高的評價。在品質方面,有96%受訪者偏好Emu Video而非Make-A-Video方法,而對於文字提示的忠實度,Emu Video則獲得85%受訪者的青睞。而且Emu Video也能接受文字提示,將用戶提供的圖像動畫化,這項功能超越了過去模型的能力。

熱門新聞

Advertisement