圖片來源: 

Google

在本月初測試影像生成模型Veo後,Google DeepMind周一再公布Veo 2版、更新版圖片生成模型Image 3以及實驗計畫,挑戰Meta和OpenAI Sora。

Google說Veo 2提升了對實體世界物理作用和人類運動和表情細微差異的理解力,可增進影片的細節和真實性。它也理解電影攝影獨特語言,用戶只要指定文類、鏡頭以及想要的影像效果。例如用戶可以要求從場景中間以低角度平移追蹤,或一位科學家觀看顯微鏡的臉部特寫。它也能根據用戶輸入18mm鏡頭的提示要求生成常用此類鏡頭的廣角影像,或是輸入「淺景深」,它會將背景模糊,將焦點集中在主題上。

Veo 2最高能生成一部最高4K(4096 x 2160)解析度畫質,最長2分鐘的影片。這個能力是OpenAI Sora影片最高解析度的4倍,長度則超過6倍。Sora最高可生成1080p、20秒的影片。

根據Google提供的由千名使用者評估,Veo 2和其他模型如Meta MovieGen、Sora Turbo生成的影片和提示,Veo 2在整體偏好及提示遵從度,都超過其他模型。Google並說Veo 2雖然還是有幻覺問題,但頻率大為降低。

Google今天開始謹慎部署Veo 2給用戶。除了在Vertex AI上線,Google也推出新的Google Labs影像生成服務VideoFX及新的實驗專案Whisk上線逐步開放給創作者。目前僅支援720p和8秒影片生成。

和Google之前的影片和圖片生成模型一樣,Veo 2輸出成果都會包含SynthID浮水印以表明是AI生成物,藉此防止假訊息。

Google DeepMind也升級了Image 3,現在可生成更明亮、更具構圖感的圖像。它現在能更準確渲染更多樣化的藝術風格——從寫實主義到印象派、抽象藝術或到動漫風。新版Image 3也更能忠實反映提示要求,產出細節和質感更豐富的圖片。

對Veo2有興趣的用戶可以在Google Labs加入等候清單等待存取權限。Google計畫明年將Veo 2擴大應用到YouTube Shorts及其他產品。Image 3更新版則已在100多個國家部署,於Google Labs下的圖片生成工具ImageFX上線。

最後,Google Labs還推出了新的實驗工具,名為Whisk,可生成具更豐富表達力的圖片。它整合了Image 3和具備視覺理解和描述能力的Gemini模型。用戶可上傳或生成圖片,Gemini會自動撰寫詳細描述,再把這段文字作為提示送給Image 3,讓用戶得以混合產生新的主題、場景或風格的圖像。Whisk今天在美國上線。

熱門新聞

Advertisement