圖片來源: 

Google

Google上周公布可生成3D影像的大規模基礎世界模型Genie 2,讓用戶僅需上傳一張圖片,就能在3D場景中訓練AI代理人。

今年3月Google公布的Genie模型讓遊戲設計人員上傳圖片後,生成可互動操作的2D虛擬世界。最新的Genie 2模型則更進一步,可讓遊戲開發人員創造出可控制動作可玩的全3D場景。開發人員只要上傳一張圖片,即能產生電玩或電影般的3D場景,用以訓練或評估具像化代理人。之後人類用戶或AI代理人以鍵盤或滑鼠輸入,就能控制3D世界的事物。

圖片來源/Google

OpenAI 2月公布Sora時稱之為世界模擬器(World simulator),Google則將Genie 2稱為世界模型(world model),意謂著它能模擬虛擬世界,包括任何動作(如跳躍、游泳)的後果。它是以大量影片資料集訓練而成的「自我迴歸(autoregressive)潛在擴散模型(latent diffusion model)」,具備多種新式功能,像是物件互動、複雜人物動畫、物理,以及預測其他代理人的行為等。

Google今年稍早和遊戲開發商合作開發的SIMA代理人。輸入以DeepMind的圖片生成模型Imagen 3所生成的一張圖片,Genie 2即能生成3D場景後和遊戲開發人員互動。

例如,這模型支援不同視角,如第一、第三人視角或等角視角(isometric view),也能靈敏回應以鍵盤下達的動作,像是左轉、右轉、前進、退後或是以空白鍵跳躍。它也能模擬角色動作(如爬樓梯、跳躍)、不同物件可供性(Object affordances)和物理運動,例如爆破的氣球、開門、射擊炸藥桶、煙塵飄動、水花濺射,以及光線明暗變化等。

Google說,利用Genie 2,任何人都可以以文字描述想要的世界、選擇喜好的渲染成形風格,再與之互動。使用者或代理人以鍵盤、滑鼠輸入行為,Genie 2就能模擬下一觀察,它能生成穩定的3D世界,大部份為10到20秒,最長可到1分鐘。

熱門新聞

Advertisement