AlphaZero在30小時的訓練後擊敗了同門師兄AlphaGo Zero。

圖片來源: 

Deepmind

Alphabet的人工智慧子公司DeepMind 上周五(12/7)公布了人工智慧系統AlphaZero的完整評估報告,並刊登於《科學》(Science)期刊上,各路棋藝高手則稱讚AlphaZero發展出自己的風格,不但具備創造力,還可能成為重要的教學工具。

AlphaZero與其它傳統AI棋藝引擎最大的不同在於它並非仰賴眾多的規則,或是自專家的棋戲中學習,而是透過深度神經網路(Deep Neural Network)與通用目的演算法展開自我學習,頂多只知道各種棋藝的基本規則。

AlphaZero挑戰的對象是全球最強大的西洋棋程式Stockfish、將棋程式Elmo,以及同樣由DeepMind所打造的圍棋程式AlphaGo。它花在西洋棋的訓練時間為9小時,將棋為12小時,圍棋為13天,訓練完畢之後,它在4個小時之後就勝過了Stockfish,在2小時之後便凌駕Elmo,並於30小時之後擊敗了AlphaGo。

研究人員解釋,在學習每一款棋藝的過程中,AlphaZero從一個完全未經訓練的神經網路,經由與自己對戰數百萬回合進行強化學習(Reinforcement Learning),一開始它完全是隨機地下子,但它會從贏家與輸家的走法中學習,同時調整其神經網路參數,而訓練時間則取決於各種棋藝的風格及複雜程度。

現今世上最優秀的日本將棋棋士羽生善治(Yoshiharu Habu)指出,AlphaZero的某些走法,例如把王將(King)移到棋盤中央,根本有違將棋理論,從人類的角度來看,這讓AlphaZero處於險惡之地,但令人難以置信的是,AlphaZero依然掌控著棋局,它的獨特風格向大家展示了該遊戲新的可能性。

經過完整訓練的AlphaZero在與Stockfish、Elmo及AlphaGo競賽時,展現了它的強大,在與Stockfish對戰時,在1,000盤的棋戲中贏了155盤,只輸了6盤;與Elmo對戰的勝率更高達91.2%,與AlphaGo對戰的勝率則是61%。

而令棋士們感到最有趣的部份在於自我學習的AlphaZero並沒有受到傳統的遊戲智慧規範,而發展自己的直覺與策略,帶來新鮮的想法,顛覆了幾個世紀以來人們或專家對這些棋藝的思考。

西洋棋大師Matthew Sadler指出,他率先注意到的就是AlphaZero的風格,它有目的地以大量的棋子有力地圍繞著國王,儘可能提高自己的行動力與移動性,同時最大限度地減少對方棋子的活動力及移動性,它完全不像傳統的遊戲程式,而好似獲得了一本武林秘笈。

Sadler還說,傳統的遊戲程式幾乎很少犯下明顯的錯誤,但在缺乏沒有具備或可計算的解決方案時即會游移不定,然而,AlphaZero卻會在此時發揮它的感覺、洞察力或直覺。

另一名西洋棋大師Natasha Regan則說,AlphaZero的走法不管是與遊戲程式或國際級專家都不同,可望成為強大的教學工具。

DeepMind的研究人員則認為,AlphaZero展現一個單一的演算法如何能在一系列的設定中挖掘新知識,儘管目前仍處於早期開發階段,但AlphaZero具備創意的見解再加上諸如AlphaFold等專案的結果讓他們有信心能夠建立一個通用的學習系統,有朝一日將可協助人們以新方法來解決重要及複雜的科學問題。


Advertisement

更多 iThome相關內容