Google DeepMind推Veo 2影像生成模型，可生成比Sora解析度高4倍、長度多6倍的影片

圖片來源:

Google

在本月初測試影像生成模型Veo後，Google DeepMind周一再公布Veo 2版、更新版圖片生成模型Image 3以及實驗計畫，挑戰Meta和OpenAI Sora。

Google說Veo 2提升了對實體世界物理作用和人類運動和表情細微差異的理解力，可增進影片的細節和真實性。它也理解電影攝影獨特語言，用戶只要指定文類、鏡頭以及想要的影像效果。例如用戶可以要求從場景中間以低角度平移追蹤，或一位科學家觀看顯微鏡的臉部特寫。它也能根據用戶輸入18mm鏡頭的提示要求生成常用此類鏡頭的廣角影像，或是輸入「淺景深」，它會將背景模糊，將焦點集中在主題上。

Veo 2最高能生成一部最高4K（4096 x 2160）解析度畫質，最長2分鐘的影片。這個能力是OpenAI Sora影片最高解析度的4倍，長度則超過6倍。Sora最高可生成1080p、20秒的影片。

根據Google提供的由千名使用者評估，Veo 2和其他模型如Meta MovieGen、Sora Turbo生成的影片和提示，Veo 2在整體偏好及提示遵從度，都超過其他模型。Google並說Veo 2雖然還是有幻覺問題，但頻率大為降低。

Google今天開始謹慎部署Veo 2給用戶。除了在Vertex AI上線，Google也推出新的Google Labs影像生成服務VideoFX及新的實驗專案Whisk上線逐步開放給創作者。目前僅支援720p和8秒影片生成。

和Google之前的影片和圖片生成模型一樣，Veo 2輸出成果都會包含SynthID浮水印以表明是AI生成物，藉此防止假訊息。

Google DeepMind也升級了Image 3，現在可生成更明亮、更具構圖感的圖像。它現在能更準確渲染更多樣化的藝術風格——從寫實主義到印象派、抽象藝術或到動漫風。新版Image 3也更能忠實反映提示要求，產出細節和質感更豐富的圖片。

對Veo2有興趣的用戶可以在Google Labs加入等候清單等待存取權限。Google計畫明年將Veo 2擴大應用到YouTube Shorts及其他產品。Image 3更新版則已在100多個國家部署，於Google Labs下的圖片生成工具ImageFX上線。

最後，Google Labs還推出了新的實驗工具，名為Whisk，可生成具更豐富表達力的圖片。它整合了Image 3和具備視覺理解和描述能力的Gemini模型。用戶可上傳或生成圖片，Gemini會自動撰寫詳細描述，再把這段文字作為提示送給Image 3，讓用戶得以混合產生新的主題、場景或風格的圖像。Whisk今天在美國上線。

熱門新聞