AlphaGo之父黃士傑揭露DeepMind通用AI布局，最終目標要協助人類解決全球暖化難題

圖片來源:

攝影／王若樸

「我們的目標，是要打造通用AI，來協助人類解決世界上的難題，」DeepMind資深工程師、AlphaGo之父黃士傑雙眼炯炯有神地說。他去年12月底來臺演講時，分享了自己與DeepMind的觀點，更指出「AI也許會提供我們從未想過的方法，幫助我們解決全球暖化、能源不足等問題。」

而DeepMind押寶通用AI的新進展，就是去年11月底發表的MuZero，採強化學習，成功挑戰AI難以致勝的雅達利（Atari）遊戲，一舉在57種雅達利遊戲中達到SOTA等級，更在國際象棋、日本將棋和圍棋等複雜的棋盤遊戲中，超越前代精通這三種棋藝的AlphaZero。

其中的關鍵，就是MuZero可從遊戲中，自行找出規則。進一步來說，MuZero演算法結合了樹狀搜尋架構和學習模型，當它接收到棋盤影像或雅達利遊戲螢幕截圖後，便不斷地更新迭代，來決定下一步的策略、價值函數，以及即時獎勵。MuZero正是利用這個方法，摸索出「精準的規則，」DeepMind在論文中寫道。

黃士傑比喻，「MuZero就好比會做夢的AlphaGo。」有別於需要真實棋譜資料的AlphaGo，MuZero不需輸入任何真實棋譜，就可自行建構棋盤。這個方法，不需要每走一步就執行一次模擬器（Simulator），也因此「加速了類神經網路的學習速度。」在黃士傑看來，MuZero打開了一扇窗，讓AlphaGo的方法可運用到更多決策領域，是邁向通用AI的里程碑。

DeepMind布局通用AI，從學習人類經驗的AlphaGo邁出第一步

DeepMind對通用AI的布局，還可從圍棋說起。2012年，黃士傑受邀加入DeepMind，2年後，Google併購DeepMind，決定發展圍棋AI，來挑戰電腦尚未突破的領域。

這套圍棋AI，就是家喻戶曉的AlphaGo。AlphaGo以黃士傑多年前開發的單機版圍棋程式Erica為基礎，為了打造媲美人類專家的圍棋AI，DeepMind決定採用新方法，也就是模仿人類思考的深度學習類神經網路，來改造線性模型的Erica。

於是，AlphaGo專案負責人David Silver，要求黃士傑以C++重寫Erica，先打造一套基本模型，再來測試類神經網路。後來，Google Brain的深度學習專家Chris Maddison和llya Sutskever也加入AlphaGo團隊，一起研發這套圍棋AI。

團隊首先利用人類棋譜來訓練AlphaGo的策略網路（Policy Network），也就是下棋的策略，再利用價值網路（Value Network）來判斷局勢、預測贏家。這一點，再加上強化學習，讓AlphaGo不斷自我對奕、自我學習。

後來，2016年，AI專用硬體如TPU逐漸成熟，大幅提高AlphaGo的勝率。經過無數次反覆訓練，AlphaGo先是贏過歐洲圍棋冠軍樊麾，登上《自然》期刊，又陸續贏過世界圍棋冠軍李世石、柯潔，成功向世人證明了AI的潛力。

AI再演進，AlphaZero不需人類經驗就能精通三種棋藝

AlphaGo打敗世界圍棋冠軍後，團隊乘著這股氣勢，展開另一項專案，打造出不需要海量訓練資料，就能自我訓練、學習規則的AI模型AlphaGo Zero。AlphaGo Zero能從零開始，不需人為干預，也不需要真實棋譜資料，就可自學下圍棋、摸索出關鍵知識，而且，經過3天自我對奕490萬次，就以100比0完勝打敗李世石的AlphaGo。

而在短短48天後，團隊進一步開發出能下圍棋、日本將棋和西洋棋的AlphaZero。AlphaZero維持了AlphaGo Zero的特性，一樣結合蒙地卡羅樹搜尋方法、能從零開始自我學習，但不同的是，在開發過程中，團隊使用了5千個第一代TPU來產生遊戲，再利用64個第二代TPU來訓練類神經網路。

結果，在24小時內，透過自我學習的AlphaZero，就打敗了三種棋類的電腦程式冠軍，也就是Stockfish、elmo，以及3天版本的AlphaGo Zero。而記載對戰結果的AlphaZero論文，更登上《科學》封面。

AlphaStar靠模仿學習面對新關卡，挑戰更高難度的即時策略遊戲星海爭霸II

不只在棋類上下功夫，DeepMind也將領域擴大到更有挑戰性的電玩遊戲，也就是即時策略遊戲星海爭霸II，來驗證強化學習的能力。這次，強化學習依然是主角，但不同的是，「我們開發的AlphaStar採用學習人類知識的模仿學習（Imitation Learning），」來解決在環境變數非常大的情況下，AI花費大量時間嘗試解法的問題。

黃士傑解釋，AlphaStar在開發的前半年，完全採自我對戰方式來學習，但是，這個做法「出現了探索（Exploration）問題。」舉例來說，當AI代理人要在遊戲畫面中選擇正確的點，會花大量時間來嘗試所有的可能；假設「螢幕解析度是50x50，畫面中就包含了2,500個點，而AI就會花大量時間，來嘗試這2,500個點，」由於選擇空間太大，造成學習障礙。

因此，團隊決定讓AlphaStar向人類學習，採用模仿學習，讓AI代理人學習人類玩遊戲（Replay），比如打造建築物的次序等。黃士傑指出，這就好比AlphaGo，以策略網路來學習人類棋譜一樣，而模仿學習，讓結構比AlphaGo複雜學多的AlphaStar，「大幅進步。」

AlphaStar的另一個特點，就是優化的搜尋架構。黃士傑指出，有別於AlphaGo，有套專門的搜尋架構來輔助找出致勝策略，AlphaStar直接將搜尋架構嵌入類神經網路中，融為一體。也因此，團隊花了許多時間來微調、優化搜尋架構，從行動延遲（Action deplays）開始，歷經指標網路（Pointer network）、Transformer，最後找出勝率最高的Scattered connections（如下圖）。

不只如此，「AlphaStar還有多重AI代理人的特色，透過這些代理人，來找出主要代理人的弱點，協助改進。」黃士傑解釋，由於星海爭霸II為即時策略遊戲，在地圖黑暗的情況下，AI代理人只能透過對手的反應，來擬定策略，有如賽局理論中的Nash均衡概念。因此，為了強化策略擬定，AlphaStar在訓練過程中，引進了Exploiter類型的AI代理人，目標是要贏過主要代理人，找出缺點，協助主要代理人改進。

後來，AlphaStar在一場美國電競賽中，以4:1贏過世界冠軍，更在2019年10月，打敗Battle.net平臺上99.8%的星海爭霸II活躍玩家，更在人族、神族和蟲族達到宗師等級。這個成果，也讓AlphaStar論文登上《自然》期刊，更鋪墊後來MuZero的基礎。

堅持己愛，保持開放的心

話鋒一轉，黃士傑指出，自己能有今日的成就，還歸功於堅持己愛。他從小熱愛圍棋，即使在臺灣師範大學攻讀博士時，也是圍棋社的一員，更與同學開發棋類電腦程式，堅持每年到國外參加電腦奧林匹亞競賽（Computer Olympiad）。

而黃士傑好學的心態，讓他在國外參賽的過程中，打下了國際鏈結基礎。「我英文不是很好，但我喜歡問問題，」他指出，自己參加國際比賽時，喜歡與不同國家的研究員交談，特別是在2007年一場比賽，結識了日後的恩師，也是Erica共同開發者的法國電腦圍棋大師Rémi Coulom。

當年，電腦圍棋程式大幅進步，不僅在9x9的小圍棋上，媲美六段的專業棋士，而由Rémi Coulom開發的電腦圍棋程式Crazy Stone，更打敗了黃士傑。

後來，黃士傑憑著對圍棋電腦程式的熱忱，透過視訊、Email與Rémi Coulom頻繁交流，開發一套線性模型圍棋程式Erica，更在2010年時，奪下電腦圍棋程式的第一名。

在當年排行榜上，Erica是唯一一個只需要一臺8核心機器的電腦圍棋程式，而且在搜尋方法上，也採用不少特殊技巧，「這些技巧，包括如何選步等公式，後來都寫在AlphaGo論文中，至今仍沒有人能超越。」

這場勝利，引起了當時DeepMind的首席科學家David Silver的注意，更親自邀請黃士傑加入DeepMind團隊。而他，也在兩年後入夥，成為DeepMind成員之一，開始進行AlphaGo專案。

「除了保持熱忱，也要有顆開放的心，更要當一個Easy to work with的人。」他舉例，在執行AlphaGo專案時，團隊來了位25歲的成員Julian Schrittwieser。當時，黃士傑用自己的方法來修改圍棋程式Erica的策略網路，雖然他認為自己的做法沒問題，但Julian Schrittwieser則表示，用C++ Template重寫會更好，於是就花了1、2天時間修改。

結果顯示，「演算法執行速度確實快很多，」黃士傑也從中學習到，要保持一顆敞開的心，欣賞他人優點，作為一個團隊中容易相處的人。此外，他也強調團隊合作的重要。

「AI是個團隊合作的時代，就算是圖靈獎的得主，也是帶著一支團隊在開發。」就以AlphaGo團隊為例，「每個人都扮演著關鍵角色，」比如負責訓練類神經網路的、連接TPU的，甚至包括系統測試的，「多虧他們的專業知識，替我們抓出許多Bug，才能讓AlphaGo不斷進步、寫下歷史，」黃士傑說。

最後，他也總結，「很多巨大的飛躍，都起始於一小步。」他坦言，AlphaGo的進展也是一點一滴累積出來的；一切起始於他對圍棋的熱情，讓他結識了Rémi Coulom、開發出Erica，後來更進入DeepMind，靠著前人在AI的研究心血，以及Google的深度學習團隊，才開發出擊敗人類圍棋冠軍的AlphaGo。「只要有熱情，不管做任何事，總有一天會帶來巨大的飛躍，」他肯定地說。文◎王若樸

熱門新聞