DeepMind AI與人類合作玩奪旗策略遊戲，表現與人類玩家相當

圖片來源:

DeepMind

DeepMind最近發表用強化學習訓練AI模型的新進展，在複雜多人連線3D遊戲《雷神之鎚III競技場》中的奪旗競賽場景，AI玩家的表現已達人類水準，能夠成功地與人類玩家合作，不僅如此，該AI模型的研究成果，也可以擴展到《雷神之鎚III競技場》完整的遊戲場景中，該研究顯示多代理人（multi-agent）訓練在AI領域開發上的潛力。

這個研究的目標是多代理人學習，也就是每個個別的代理人都必須獨立行動，並學會與其他代理人互動和合作，DeepMind指出，地球上有數十億的人居住，每個人都有自己的目標和活動，但是仍然可以透過團體組織和社會聚集在一起，展現出集體智慧，這就是DeepMind期望AI玩家能學會的能力，不過，這也是一個非常困難的任務，因為環境一直在改變。

為了研究這道難題，DeepMind利用3D第一視角的多人連線遊戲，來訓練AI模型，這些遊戲能夠代表最受歡迎的遊戲種類，並且也因為沉浸式的遊戲方式，可以收集到數百萬遊戲玩家的想像，也能使AI學習到策略、技巧、手眼協調和團隊合作，對AI玩家來說，挑戰是要直接從原始的像素資料直接學習，並產生動作，這樣的複雜度也使得第一視角的多人連線遊戲，成為豐富的AI訓練資源。

首先，DeepMind訓練AI玩家學習像其他玩家一樣行動，而且要學會與同隊的玩家合作，不管是AI或是人類玩家，奪旗競賽的規則很簡單，但是動態的變化卻很複雜，兩個隊伍各自的玩家要在給定的地圖上，搶奪對方隊伍的旗幟帶回自己的基地，同時又要保護自己隊伍的旗幟，若點擊持有自己隊伍旗幟的敵對玩家，就能將旗幟送回原本的基地，在5分鐘內擁有最多旗幟的隊伍即獲勝。

從遊戲AI玩家的角度來看，奪旗競賽需要玩家與團隊合作一起對抗敵人，為了讓研究變得更有趣，DeepMind為奪旗競賽增添了一些變數，每個競賽中的地圖配置都不相同，如此一來，AI玩家就被迫要找出通用的策略，而不是靠著記憶地圖來完成任務，除此之外，為了確保競爭環境公平，AI玩家和人類玩家是用類似的方式玩奪旗遊戲，AI玩家觀察像素圖像的串流資料，並透過模擬遊戲控制器來產生執行動作。

DeepMind所用的強化學習有3大概念，第一，DeepMind訓練了一群AI玩家，而不是只有一個，因此，AI之間可以互相學習，提供多元的隊友或是敵人，第二，每個AI玩家都會學習自己的內部獎勵訊號，使得AI產生自己的內部目標，像是搶奪旗幟，第三，AI玩家執行遊戲的時間區段的分為快和慢兩種，來改善AI使用記憶體和產生一致行動序列的能力。

熱門新聞