DeepMind以多重代理增強學習策略，讓AI在星海爭霸 2天梯爬上大師等級

在7月的時候，DeepMind宣布其《星海爭霸 2》（StarCraft II）人工智慧AlphaStar將上天梯與玩家對戰，而現在DeepMind公布最新的結果，AlphaStar的排名在天梯活躍玩家99.8％之上，而且人類、神族和蟲族三大種族都達到大師（Grandmaster）等級。

自我對戰（Self-play）和學習系統是不少遊戲人工智慧系統的強化策略，像是圍棋與象棋的人工智慧AlphaGo和AlphaZero，還有遊戲《Dota 2》的人工智慧OpenAI Five，都以自我對戰方法達到一定程度的水準。

但是DeepMind表示，自我對戰存在明顯的缺點，一個與自己競爭的人工智慧代理會不停的進步，但也可能會忘記與先前自己對戰的能力，而形成無盡的迴圈，導致結果無法收斂或是無法達到真正的進步，就以剪刀石頭布的遊戲為例，一開始代理可能喜歡使用石頭，隨著自我對戰，代理可能會轉為使用剪刀，但是後來又發現使用布可以提升勝率，而進入一個循環。

DeepMind最新的研究認為，自我對戰策略不足以產生一個真正強大的代理，因此著手研究新的通用解決方案，而DeepMind最新發表在Nature上的論文，將自我對戰的的概念，擴展成一群代理戰隊。研究人員解釋，通常在自我對戰中，每個代理都會盡最大程度的努力贏對手，但這僅是解決方案的一部分，在真正的世界中，想要在《星海爭霸 2》獲勝的玩家，會選擇與朋友搭檔，並且訓練特定的策略。

也就是說，訓練的夥伴並不是要贏所有潛在的玩家，而是幫助朋友發現自己的缺點，改進各自的遊戲技術，而代理聯盟也是利用這個想法，目標不僅是要讓主要的代理在遊戲中獲勝，同時輔助代理則要透過揭露主要代理的缺點，最大程度幫助主要代理成長。透過這樣的方式，代理聯盟自己學會了所有《星海爭霸 2》中的複雜策略。

另外，DeepMind還提到，由於《星海爭霸 2》的動作空間太大，每個時間點可執行的動作高達1,026個，每場遊戲要執行數千次的動作才可能決定勝負，而巨大的動作空間讓許多增強學習方法無效，因此AlphaStar現在使用一種稱為Off-Policy的增強學習演算法，可有效率地從舊遊戲策略更新成新策略。

最新的AlphaStar代理，在Battle.net上匿名進行遊戲，並且現在操作人類、神族和蟲族三個種族都達到了大師等級。DeepMind強調，AlphaStar沒有靠作弊來贏得比賽，經專業玩家認可，其使用的攝影機介面提供類似人類玩家可取得的資訊，而且AlphaStar也被限制了手速與人類玩家相當。

熱門新聞