Google公布3D場景生成模型Genie 2

圖片來源:

Google

Google上周公布可生成3D影像的大規模基礎世界模型Genie 2，讓用戶僅需上傳一張圖片，就能在3D場景中訓練AI代理人。

今年3月Google公布的Genie模型讓遊戲設計人員上傳圖片後，生成可互動操作的2D虛擬世界。最新的Genie 2模型則更進一步，可讓遊戲開發人員創造出可控制動作可玩的全3D場景。開發人員只要上傳一張圖片，即能產生電玩或電影般的3D場景，用以訓練或評估具像化代理人。之後人類用戶或AI代理人以鍵盤或滑鼠輸入，就能控制3D世界的事物。

圖片來源／Google

OpenAI 2月公布Sora時稱之為世界模擬器（World simulator），Google則將Genie 2稱為世界模型（world model），意謂著它能模擬虛擬世界，包括任何動作（如跳躍、游泳）的後果。它是以大量影片資料集訓練而成的「自我迴歸（autoregressive）潛在擴散模型（latent diffusion model）」，具備多種新式功能，像是物件互動、複雜人物動畫、物理，以及預測其他代理人的行為等。

Google今年稍早和遊戲開發商合作開發的SIMA代理人。輸入以DeepMind的圖片生成模型Imagen 3所生成的一張圖片，Genie 2即能生成3D場景後和遊戲開發人員互動。

例如，這模型支援不同視角，如第一、第三人視角或等角視角（isometric view），也能靈敏回應以鍵盤下達的動作，像是左轉、右轉、前進、退後或是以空白鍵跳躍。它也能模擬角色動作（如爬樓梯、跳躍）、不同物件可供性（Object affordances）和物理運動，例如爆破的氣球、開門、射擊炸藥桶、煙塵飄動、水花濺射，以及光線明暗變化等。

Google說，利用Genie 2，任何人都可以以文字描述想要的世界、選擇喜好的渲染成形風格，再與之互動。使用者或代理人以鍵盤、滑鼠輸入行為，Genie 2就能模擬下一觀察，它能生成穩定的3D世界，大部份為10到20秒，最長可到1分鐘。

熱門新聞