Deepmind訓練人工智慧14天完勝星海2世界前十強玩家

Deepmind的人工智慧AlphaStar，在2018年12月19日一系列的星海爭霸 2（StarCraft II）測試賽中，以5比0打贏世界頂尖職業玩家，Deepmind現釋出了訓練人工智慧的細節。

Deepmind提到，遊戲一直是測試和評估人工智慧效能的重要方法，而即便人工智慧遊玩Atari、馬力歐甚至是Dota 2等遊戲已經有很大的進展，人工智慧在操作星海爭霸 2上，仍然難以克服其複雜度。暴雪娛樂公司的星海爭霸 2，被認為是極具挑戰的即時戰略遊戲之一，而且過去即便是讓電腦作弊，在遊戲規則上動手腳，賦予電腦特殊能力，都難以與專業玩家匹敵。

不過現在，Deepmind的人工智慧AlphaStar，已經能以深度神經網路完整遊玩星海爭霸 2，而且還能碾壓世界排名前十的職業玩家。該神經網路透過監督式學習和增強學習，直接以原始遊戲資料進行訓練。星海爭霸 2有許多種玩法，但在電子競技中，最常見的形式是進行5場1對1的錦標賽，玩家可以選擇各有特色的蟲族、神族或人類種族。

AlphaStar以神族與頂尖人類玩家交手，第一次是與德國頂尖玩家Dario Wünsch（代號TLO）進行對戰，AlphaStar以5比0贏得了比賽，Dario Wünsch對人工智慧的強度感到驚訝，並表示AlphaStar使用了過去他沒想過的策略。第二次則是與世界排名前十強的職業神族玩家Grzegorz Komincz（代號MaNa）進行對戰，依然以5比0取得完勝，Grzegorz Komincz表示，AlphaStar在每場遊戲都採用不同的策略，並且以非常人性化的方式進行遊戲。

Deepmind提到，人工智慧要贏得遊戲，除了必須謹慎地平衡經濟發展，也需要微觀的對各單位進行細微控制，要在短期與長期目標之間取得平衡以適應意外狀況。星海爭霸中沒有單一最佳策略，人工智慧需要在訓練過程，不斷探索以及拓展戰略知識。

而且不像是圍棋或是西洋棋公開所有遊戲資訊，在星海爭霸 2的關鍵玩家資訊是隱藏的，必須透過偵查探索發現。另一個困難則是，人工智慧需要有長期規畫的能力，並非所有因果關係都是即時發生的，整個遊戲歷程可能長達一個小時才會結束，而這意味著早期採取的行動，或許有很長的一段時間無法獲得回報。

在星海爭霸 2中，人工智慧沒有太多的思考時間，不像傳統棋盤遊戲是輪流進行，人工智慧與玩家都必須隨著遊戲時間推移，不斷地做出動作。人工智慧還需要在大型的動作空間中做出決策，需要即時細微地控制數百個不同的單位和建築物。

由於以上這些困難，星海爭霸成為人工智慧的大挑戰，Deepmind在2016年和2017年跟暴雪娛樂公司合作，釋出了PySC2工具集，其包括至今最大的匿名遊戲重播（Replay）集，Deepmind利用這些基礎，並搭配先進的工程技術和演算法開發出AlphaStar。

AlphaStar的行為由深度神經網路生成，該神經網路接受原始遊戲介面的輸入資料，並輸出一系列遊戲內指令。AlphaStar還使用了一種先進的多代理學習演算法，這個神經網路最初是由暴雪釋出，能讓AlphaStar模擬星海爭霸天梯排位系統上的玩家對戰，學習使用宏觀與微觀策略。

AlphaStar使用這個初始代理人在95％的比賽中，擊敗了遊戲內建的菁英級人工智慧，相當於天梯中黃金等級的人類玩家。而這些被應用在多代理人增強學習的過程中，Deepmind創建了一系列連續的戰隊，戰隊互相對戰，類似於人類玩家在天梯上對戰的情況。這種新形式的訓練方法，採用了基於人數的增強學習概念，創造不斷探索玩法的巨大戰略空間。

Deepmind提到，隨著戰隊的進步，能夠發展出擊敗早期策略的反制策略，甚至是全新戰術以及微觀管理計畫，像是一開始人工智慧喜愛使用神族的光砲或暗黑聖堂武士進行快攻，但這種充滿風險的策略在訓練過程被放棄，取而代之的是優先擴大基地，生產更多工人強化經濟實力，或是犧牲兩個先知單位，破壞對手的工人以壓制其經濟發展。這個策略發展的過程，跟玩家發現新策略的方式相似。

AlphaStar在手速上並沒有作弊，星海爭霸職業玩家平均每分鐘動作（APM）可達數百個，現有機器人的APM約在數千到數萬間，但是AlphaStar的平均APM約為280，明顯的低於職業玩家，Deepmind表示，AlphaStar動作數更低表示每個動作都更加準確，平均觀察並執行動作的延遲約在350毫秒。

Deepmind使用Google的TPU v3訓練AlphaStar，並建立了一個高度擴展的分散式訓練系統，支援執行數千個星海爭霸執行實體以訓練代理人，AlphaStar戰隊執行14天，每個代理使用16個TPU，訓練期間每個代理都經歷了長達200年的星海爭霸遊戲時間，最終的AlphaStar代理包含最有效的策略組合，可以在電腦以單個GPU執行。

熱門新聞