圖片來源: 

微軟

微軟本周在《自然》期刊發表一款世界與人類行為互動模型(World and Human Action Model,WHAM),名為Muse,能生成電玩的視覺物件及控制器行為。

生成式AI雖然逐漸普及應用於創意產業,如影片、圖片,加速協同溝通及自動化產製過程,但效果仍不如期望。微軟研究院Game Intelligence和Teachable AI Experience(Tai X)及Xbox Games的忍者理論(Ninja Theory)團隊合作開發出Muse,展示利用對使用者需求的知識,促進生成式AI開發創意內容的能力。最後結果是名為Muse的世界與人類行為模型(World and Human Action Model,WHAM),可生成一致化又多樣化的電玩遊戲情節,且能持續整合用戶需求。

WHAM模型基於Transformer架構的自回歸模型。為了訓練Muse,研究團隊蒐集了4人對4人的Xbox線上遊戲Bleeding Edge玩家對戰時的影片作為訓練資料集,涵括10億張遊戲畫面與控制器輸入的資料,相當於7年的人類玩家遊戲資料。透過大量學習,來訓練WHAM生成遊戲玩法序列、關卡設計和角色行為。訓練環境先是使用Nvidia V100,之後全面改成H100,開發過程也經歷多輪迭代。

最後的Muse(WHAM-1.6B)可生成遊戲視覺效果、遊戲內行動,或同時生成兩者。它能夠根據1秒的遊戲片段(1秒的影像與控制器輸入),預測接下來的遊戲發展。

研究人員評估,Muse有一致性(consistency)、多樣性(diversity)及持續性(persistency)的特點。一致性方面,Muse能夠生成長達兩分鐘的連續遊戲序列,並且能夠保持畫面穩定,不會出現明顯的視覺退化或不合理的變化。多樣性方面,Muse具備行為和視覺上的多樣性。例如,當給定相同的10幀(1秒)真實遊戲畫面作為條件時,Muse產生了不同的遊戲場景,包括不同的攝影機移動方式或是選擇不同路徑。此外,Muse也能產生視覺上的變化,例如角色的懸浮滑板樣式不同。Muse還具有「持續性」的能力,能夠使新角色合理地融入遊戲環境,而不是將其忽略或錯誤刪除。

與以往需要手動定義或提取相對狹窄領域結構的創意支援工具不同,生成式AI模型可以從現有數據中學習相關結構,能夠在遊戲開發、遊戲測試和創意應用方面提供重要協助。

研究團隊也開源了Muse權重及樣本資料,以及WHAM Demonstrator的執行檔,WHAM Demonstrator為概念模型原型,提供視覺介面和模型互動。開發人員可以在Azure AI Foundry試用Muse。

熱門新聞

Advertisement