圖片來源: 

攝影/王若樸

「我們的目標,是要打造通用AI,來協助人類解決世界上的難題,」DeepMind資深工程師、AlphaGo之父黃士傑雙眼炯炯有神地說。他去年12月底來臺演講時,分享了自己與DeepMind的觀點,更指出「AI也許會提供我們從未想過的方法,幫助我們解決全球暖化、能源不足等問題。」

而DeepMind押寶通用AI的新進展,就是去年11月底發表的MuZero,採強化學習,成功挑戰AI難以致勝的雅達利(Atari)遊戲,一舉在57種雅達利遊戲中達到SOTA等級,更在國際象棋、日本將棋和圍棋等複雜的棋盤遊戲中,超越前代精通這三種棋藝的AlphaZero。

其中的關鍵,就是MuZero可從遊戲中,自行找出規則。進一步來說,MuZero演算法結合了樹狀搜尋架構和學習模型,當它接收到棋盤影像或雅達利遊戲螢幕截圖後,便不斷地更新迭代,來決定下一步的策略、價值函數,以及即時獎勵。MuZero正是利用這個方法,摸索出「精準的規則,」DeepMind在論文中寫道。

黃士傑比喻,「MuZero就好比會做夢的AlphaGo。」有別於需要真實棋譜資料的AlphaGo,MuZero不需輸入任何真實棋譜,就可自行建構棋盤。這個方法,不需要每走一步就執行一次模擬器(Simulator),也因此「加速了類神經網路的學習速度。」在黃士傑看來,MuZero打開了一扇窗,讓AlphaGo的方法可運用到更多決策領域,是邁向通用AI的里程碑。

DeepMind布局通用AI,從學習人類經驗的AlphaGo邁出第一步

DeepMind對通用AI的布局,還可從圍棋說起。2012年,黃士傑受邀加入DeepMind,2年後,Google併購DeepMind,決定發展圍棋AI,來挑戰電腦尚未突破的領域。

這套圍棋AI,就是家喻戶曉的AlphaGo。AlphaGo以黃士傑多年前開發的單機版圍棋程式Erica為基礎,為了打造媲美人類專家的圍棋AI,DeepMind決定採用新方法,也就是模仿人類思考的深度學習類神經網路,來改造線性模型的Erica。

於是,AlphaGo專案負責人David Silver,要求黃士傑以C++重寫Erica,先打造一套基本模型,再來測試類神經網路。後來,Google Brain的深度學習專家Chris Maddison和llya Sutskever也加入AlphaGo團隊,一起研發這套圍棋AI。

團隊首先利用人類棋譜來訓練AlphaGo的策略網路(Policy Network),也就是下棋的策略,再利用價值網路(Value Network)來判斷局勢、預測贏家。這一點,再加上強化學習,讓AlphaGo不斷自我對奕、自我學習。

後來,2016年,AI專用硬體如TPU逐漸成熟,大幅提高AlphaGo的勝率。經過無數次反覆訓練,AlphaGo先是贏過歐洲圍棋冠軍樊麾,登上《自然》期刊,又陸續贏過世界圍棋冠軍李世石、柯潔,成功向世人證明了AI的潛力。

AI再演進,AlphaZero不需人類經驗就能精通三種棋藝

AlphaGo打敗世界圍棋冠軍後,團隊乘著這股氣勢,展開另一項專案,打造出不需要海量訓練資料,就能自我訓練、學習規則的AI模型AlphaGo Zero。AlphaGo Zero能從零開始,不需人為干預,也不需要真實棋譜資料,就可自學下圍棋、摸索出關鍵知識,而且,經過3天自我對奕490萬次,就以100比0完勝打敗李世石的AlphaGo。

而在短短48天後,團隊進一步開發出能下圍棋、日本將棋和西洋棋的AlphaZero。AlphaZero維持了AlphaGo Zero的特性,一樣結合蒙地卡羅樹搜尋方法、能從零開始自我學習,但不同的是,在開發過程中,團隊使用了5千個第一代TPU來產生遊戲,再利用64個第二代TPU來訓練類神經網路。

結果,在24小時內,透過自我學習的AlphaZero,就打敗了三種棋類的電腦程式冠軍,也就是Stockfish、elmo,以及3天版本的AlphaGo Zero。而記載對戰結果的AlphaZero論文,更登上《科學》封面。

AlphaStar靠模仿學習面對新關卡,挑戰更高難度的即時策略遊戲星海爭霸II

不只在棋類上下功夫,DeepMind也將領域擴大到更有挑戰性的電玩遊戲,也就是即時策略遊戲星海爭霸II,來驗證強化學習的能力。這次,強化學習依然是主角,但不同的是,「我們開發的AlphaStar採用學習人類知識的模仿學習(Imitation Learning),」來解決在環境變數非常大的情況下,AI花費大量時間嘗試解法的問題。

黃士傑解釋,AlphaStar在開發的前半年,完全採自我對戰方式來學習,但是,這個做法「出現了探索(Exploration)問題。」舉例來說,當AI代理人要在遊戲畫面中選擇正確的點,會花大量時間來嘗試所有的可能;假設「螢幕解析度是50x50,畫面中就包含了2,500個點,而AI就會花大量時間,來嘗試這2,500個點,」由於選擇空間太大,造成學習障礙。

因此,團隊決定讓AlphaStar向人類學習,採用模仿學習,讓AI代理人學習人類玩遊戲(Replay),比如打造建築物的次序等。黃士傑指出,這就好比AlphaGo,以策略網路來學習人類棋譜一樣,而模仿學習,讓結構比AlphaGo複雜學多的AlphaStar,「大幅進步。」

AlphaStar的另一個特點,就是優化的搜尋架構。黃士傑指出,有別於AlphaGo,有套專門的搜尋架構來輔助找出致勝策略,AlphaStar直接將搜尋架構嵌入類神經網路中,融為一體。也因此,團隊花了許多時間來微調、優化搜尋架構,從行動延遲(Action deplays)開始,歷經指標網路(Pointer network)、Transformer,最後找出勝率最高的Scattered connections(如下圖)。

不只如此,「AlphaStar還有多重AI代理人的特色,透過這些代理人,來找出主要代理人的弱點,協助改進。」黃士傑解釋,由於星海爭霸II為即時策略遊戲,在地圖黑暗的情況下,AI代理人只能透過對手的反應,來擬定策略,有如賽局理論中的Nash均衡概念。因此,為了強化策略擬定,AlphaStar在訓練過程中,引進了Exploiter類型的AI代理人,目標是要贏過主要代理人,找出缺點,協助主要代理人改進。

後來,AlphaStar在一場美國電競賽中,以4:1贏過世界冠軍,更在2019年10月,打敗Battle.net平臺上99.8%的星海爭霸II活躍玩家,更在人族、神族和蟲族達到宗師等級。這個成果,也讓AlphaStar論文登上《自然》期刊,更鋪墊後來MuZero的基礎。

堅持己愛,保持開放的心

話鋒一轉,黃士傑指出,自己能有今日的成就,還歸功於堅持己愛。他從小熱愛圍棋,即使在臺灣師範大學攻讀博士時,也是圍棋社的一員,更與同學開發棋類電腦程式,堅持每年到國外參加電腦奧林匹亞競賽(Computer Olympiad)。

而黃士傑好學的心態,讓他在國外參賽的過程中,打下了國際鏈結基礎。「我英文不是很好,但我喜歡問問題,」他指出,自己參加國際比賽時,喜歡與不同國家的研究員交談,特別是在2007年一場比賽,結識了日後的恩師,也是Erica共同開發者的法國電腦圍棋大師Rémi Coulom。

當年,電腦圍棋程式大幅進步,不僅在9x9的小圍棋上,媲美六段的專業棋士,而由Rémi Coulom開發的電腦圍棋程式Crazy Stone,更打敗了黃士傑。

後來,黃士傑憑著對圍棋電腦程式的熱忱,透過視訊、Email與Rémi Coulom頻繁交流,開發一套線性模型圍棋程式Erica,更在2010年時,奪下電腦圍棋程式的第一名。

在當年排行榜上,Erica是唯一一個只需要一臺8核心機器的電腦圍棋程式,而且在搜尋方法上,也採用不少特殊技巧,「這些技巧,包括如何選步等公式,後來都寫在AlphaGo論文中,至今仍沒有人能超越。」

這場勝利,引起了當時DeepMind的首席科學家David Silver的注意,更親自邀請黃士傑加入DeepMind團隊。而他,也在兩年後入夥,成為DeepMind成員之一,開始進行AlphaGo專案。

「除了保持熱忱,也要有顆開放的心,更要當一個Easy to work with的人。」他舉例,在執行AlphaGo專案時,團隊來了位25歲的成員Julian Schrittwieser。當時,黃士傑用自己的方法來修改圍棋程式Erica的策略網路,雖然他認為自己的做法沒問題,但Julian Schrittwieser則表示,用C++ Template重寫會更好,於是就花了1、2天時間修改。

結果顯示,「演算法執行速度確實快很多,」黃士傑也從中學習到,要保持一顆敞開的心,欣賞他人優點,作為一個團隊中容易相處的人。此外,他也強調團隊合作的重要。

「AI是個團隊合作的時代,就算是圖靈獎的得主,也是帶著一支團隊在開發。」就以AlphaGo團隊為例,「每個人都扮演著關鍵角色,」比如負責訓練類神經網路的、連接TPU的,甚至包括系統測試的,「多虧他們的專業知識,替我們抓出許多Bug,才能讓AlphaGo不斷進步、寫下歷史,」黃士傑說。

最後,他也總結,「很多巨大的飛躍,都起始於一小步。」他坦言,AlphaGo的進展也是一點一滴累積出來的;一切起始於他對圍棋的熱情,讓他結識了Rémi Coulom、開發出Erica,後來更進入DeepMind,靠著前人在AI的研究心血,以及Google的深度學習團隊,才開發出擊敗人類圍棋冠軍的AlphaGo。「只要有熱情,不管做任何事,總有一天會帶來巨大的飛躍,」他肯定地說。文◎王若樸

 

 


Advertisement

更多 iThome相關內容