AlphaGo首席工程師黃士傑表示,AlphaGo Zero展示了增強式學習的巨大潛力,AI將會成為人類的工具,與人類一同合作(攝影/洪政偉)。

10月19日,這一天,人工智慧發展歷程進入了新的階段。因為Google旗下DeepMind在《自然》期刊上發表了新一代AlphaGo Zero,再度吸引了全球目光。AlphaGo Zero只用了3天,就跟上人類數千年圍棋積累的知識,40天後,更超越了打敗世界第一高手的圍棋AI程式AlphaGO。

新版打敗舊版,理應如此,為何值得大書特書?在第一屆臺灣人工智慧年會中,AlphaGo首席工程師也是DeepMind 資深研究員的黃士傑點出AlphaGo Zero真正的意義,他強調:「AlphaGo Zero正式脫離人類知識的資料,不再需要人類的資料。」

前一代AlphaGo的成功,仍然要靠大量的棋譜,才能訓練出打遍天下無敵手的圍棋AI模型。但是,AlphaGo Zero擁有自我學習的能力,不需要事先學習人類下棋的棋譜,很快就能達到,甚至超越前一代AlphaGo的實力。深度學習,除了運算力之外,還需要大量的標記資料,才能訓練出有足夠解釋力或預測力的深度學習模型,「資料量」成了決定AI技術品質的關鍵,也是限制,因為要取得大量資料,尤其是標記資料,不是一件容易或便宜的事,不少AI巨頭,如Google,還是得靠全球規模的消費服務,才能蒐集到夠多的各類標記資料來訓練機器學習模型。

但AlphaGo Zero的問世,意味著機器學習出現了另一條和過去不同的可能性:不需海量的訓練資料,也可以建立高品質的機器學習模型。「關鍵就是,增強式學習(Reinforcement Learning)的突破。」黃士傑強調。

40天自我對弈2,900萬次,完全不靠資料

AlphaGo Zero最大成就是能夠從零開始,透過自我學習的方式來下圍棋。甚至靠著自我學習,AlphaGo Zero在短短的36小時後,就摸索出所有基本且重要的圍棋知識,圍棋程度達到與李世乭九段對戰的AlphaGo v18相同水平,經過3天學習,AlphaGo Zero對戰AlphaGo v18甚至是100%的完勝,也很快達到網路60連勝的Master版圍棋程式的水準。根據DeepMind這篇新論文上的數據,AlphaGo Zero第一階段實測階段,三天自我學習訓練中,共自我對弈(Self-play)了490萬次,每次只需要0.4秒就能想出下一步棋。

確認了增強式學習來自我對奕的可行性後,DeepMind採用更大規模的神經網絡,同樣從頭開始訓練,花了40天,自我對奕了2,900萬次,這個花了40天訓練的最終版AlphaGo Zero,對戰Master的勝率接近90%,成為有史以來AlphaGo棋力最強的版本。

AlphaGo原本的版本需要用數千盤人類棋手的對戰來訓練,然而AlphaGo Zero只用了增強式學習技術,過程中完全沒有經過人類的干預,也從未使用過去的棋譜資料。黃士傑認為,不需要經過人類干預的增強式學習,將為成為一種趨勢。

儘管AlphaGo Zero仍然以圍棋為開發範本,但DeepMind期待,這個技術未來可以應用到在其他類似的結構化問題,例如蛋白質折疊、降低能源損耗,或是尋找革命性的新材料等。

不過,AlphaGo Zero的誕生,並非一蹴可及,一手催生出AlphaGo的黃士傑,更是十年磨一劍,花了10年都專注在電腦圍棋研究,才得以有成。黃士傑也首度在臺公開了研發AlphaGo的幕後經歷。

AlphaGo的起源要從黃士傑在攻讀博士班時,開發的一支單機版電腦圍棋程式Erica說起,Erica其實是黃士傑妻子的名字。當年,參與創立DeepMind的推手,也是現在AlphaGo團隊主管的David Sliver,看到黃士傑的研究成果非常驚訝,特地寫了封信給黃士傑,詢問黃士傑要不要加入DeepMind。黃士傑後來在隔年,2012年11月才正式加入DeepMind。

DeepMind目標是通用人工智慧

黃士傑指出,DeepMind的目標是要打造出通用的人工智慧,因此,當年開始投入電腦圍棋AI研發時,DeepMind的共識就是不要只是複製Erica,做一個2.0本就好,不要受限於既定的限制,而要找出新的作法。

AlphaGo發想自DeepMind執行長Demis Hassabis的點子,他提議要研究電腦圍棋專案,於是黃士傑與他的主管David Sliver才開啟了了這項研究專案,後來研究團隊又加入了Chris Maddison、llya Sutskever,一同參與開發AlphaGo,而「為什麼要做圍棋?」,這是許多人的疑問,黃士傑解答,IBM深藍在西洋棋戰勝人類之後,就只剩下圍棋這項挑戰了。

但要選擇什麼樣的技術,才能打贏圍棋高手呢?黃士傑認為,如果人類可以馬上判斷下這一步是好棋,那麼以仿效人類大腦思考的神經網路技術,也應該可以做得到。

所以,黃士傑運用神經網路中的深度學習技術,來開發圍棋AlphaGo程式,利用人類的棋譜來訓練AlphaGo建立下棋的策略網路(Policy Network),「用深度學習來訓練圍棋程式,就是用人類的直覺來下圍棋。」他解釋。

不過,訓練「程式」也不是一件容易的事。黃士傑每天的工作就是反覆訓練神經網路、測試、觀察勝率,不斷地重複這樣的過程,不斷嘗試解決神經網路得建立多深、資料集有沒有問題、神經網路需要幾層等等的問題。

尤其在專案剛開始的第一個月,用深度學習來打造AlphaGo程式,甚至用了圍棋專家的3千萬個棋步來訓練神經網路,幾乎是行不通的方向,勝率並不高,不過,他們後來找到新方法,解決了機器學習訓練常見的Overfitting過度優化問題後, AlphaGo的勝率就大幅達到95%,才開始確信這是條可行的方向。

AlphaGo關鍵突破:可判斷形勢的價值網路

接著,AlphaGo專案做出了最關鍵的突破,就是加入了可供判斷形勢的價值網路(Value Network)設計,可以將增強式學習來結合深度學習,讓AlphaGo擁有學習的能力,尤其可以做到讓AlphaGo自己和自己下棋。

黃士傑形容,就像是一種左右互搏的自我學習,左手和右手對戰。DeepMind也找來歐洲圍棋冠軍樊麾,來和AlphaGo對奕。2016年1月,AlphaGo研究成果首次登上了學術圈重量級期刊《自然》期刊,開始出現在世人面前。

2016年中,AI專用硬體技術的成熟,如TPU深度學習專用晶片也帶來很大的幫助。黃士傑指出,相同的程式碼,用TPU執行的勝率,會變得非常高。AlphaGo將直覺和判斷一起訓練,就能將直覺和判斷達到一致性,並將策略和價值網路結合,變成Dual Network,之後再不斷的加強訓練流程。

不過,為了測試AlphaGo的能耐,黃士傑努力說服團隊,要上網實測AlphaGo的棋力,後來,終於在2016年底,AlphaGo Master在網路上找到中、日、韓、臺等各國頂尖圍棋棋手來對奕,一天連下10盤,就這樣在自家的房間低調地用單機訓練AlphaGo Master。

當時下一步棋平均要4 ~8秒,一局下完大約需要1小時,而與職業棋手的對戰都是全勝,他認為,電腦圍棋AI的價值在於「擴展圍棋界的理論和思路」。

他指出,目前AlphaGo Zero棋力還在持續精進中,DeepMind的團隊合作創造許多不錯的成果,包含發表了兩篇論文,以及與人類大戰兩次的大戰,在網路上有60個棋局訓練,最後還拍了《AlphaGo》的紀錄片。

前一代AlphaGo,是以模仿人類直覺來下棋而設計,透過大量棋譜、龐大專家知識來訓練機器學習模型,藉此而打敗了了世界棋王。但是,新一代AlphaGo Zero的出現,意味著具備自我學習能力的圍棋AI,更超越了模仿人類直覺的舊版本。

甚至,DeepMind團隊還從AlphaGo Zero自我對弈中的2,900萬盤棋棋譜中,找到了,過去人類圍棋知識視為不可能的新棋步,這也意味著,AlphaGo Zero的成功,證明了AI自我學習到的知識,可以超越人類知識的可能性,也確實能如DeepMind一開始所期待的目標,用AlphaGo來拓展現有圍棋專家領域知識的不足,是一種AI 與人的合作,來補足人類知識的缺口。

黃士傑表示,AlphaGo的成功是深度學習與增強式學習的勝利,硬體資源與TPU也扮演很重要的角色,最後,AlphaGo Zero展示了增強式學習的巨大潛力,他認為,AI要成為人類的工具,與人類合作。

文⊙王宏仁、何維涓

熱門新聞

Advertisement