圖片來源: 

Amazon,示意圖

過去AI領域的研究人員常用能夠體現真實世界問題的遊戲,來研究AI系統,像是蒙特祖馬的復仇(Montezuma's Revenge)、陷阱(Pitfall),以及圍棋等,讓AI學會問題解決的能力,而近日Google Brain和其子公司DeepMind的研究人員,聯手用更複雜的卡牌遊戲花火 (Hanabi)來進行AI研究,為AI研究翻開新的一頁,該卡牌遊戲需要2~5個玩家共同合作,此外,還需要推斷對手的意圖,這對AI系統而言,是另一個全新且困難的挑戰,目前研究結果顯示還有很大的進步空間,研究團隊近日將研究成果發表成論文,為了促進未來相關的研究,也開源釋出花火學習環境和實驗框架

研究團隊認為,人類的社會是由許多不同的人所組成,複雜的互動模式在人類生活中,扮演關鍵的角色,因此,必須要讓AI程式學會有效地與其他程式合作的能力,尤其是與人類合作,有別於2個玩家互相對抗的博弈遊戲,花火遊戲並非建立在平等、獨立的遊戲策略,花火遊戲的玩家策略是建立在隊友的整體策略上。

在花火卡牌遊戲中,總共含有55張花火牌,包含紅、黃、藍、綠、白色和彩色的花色和1~5的數字,遊戲一開始,每位玩家會有5張牌,玩家持牌時必須將牌面背向自己,因此每位玩家都可以看到其他玩家的牌,但是不能看到自己的牌,每一回合玩家必須從以下3個動作擇一來行動,分別是提供資訊、棄牌和打牌,也就是玩家可以選擇提供花色或是數字牌的位置資訊,或是丟棄一張持牌,或是打出牌面上沒有出現過花色的牌、出現過花色下一個數字的牌,遊戲是輪流回合制,直到所有牌用完就是最後一回合,該遊戲在2013年獲得德國遊戲大獎。

遊戲最終的目標是要獲得最高分,為了成功拿到高分,玩家之間必須互相合作來揭露資訊,但是,在遊戲規則下,互相提供資訊的次數是有限制的,因此,無法完全解開每個玩家對自己手牌的不確定性,不能單靠互相提供資訊來獲取高分,為了克服這個限制,每回合每個玩家選擇採取的行動就暗示了額外資訊,也因此,每位玩家不僅要合作,還得推斷對方的意圖。

花火存在不對等的資訊特性,造成處理AI演算法複雜度的維度具有挑戰性,每個玩家對特定訊號的反應仰賴其他一樣訊號的情況,由於這樣的相互關係,強化學習中單一動作的探索技術,因為忽略了整體的影響,而會錯誤估計程式的有效性。

研究團隊用Python和C++打造花火學習環境(Hanabi Learning Environment)介面,該學習環境包含兩項挑戰,一個是在沒有其他AI玩家的幫忙下,自己在玩遊戲的過程學習,找出最佳的聯合策略,來得到最高分,另一個則是透過特定組成的團隊,來測試並訓練AI玩家與其他AI玩家,或是人類玩家一起玩遊戲的能力。

研究實驗中,研究團隊利用強化學習演算法搭配深度神經網路,來檢驗AI模型,並用幾個手動編寫規則的花火遊戲機器人來對照,AI玩家在自我完成遊戲的設定下,目前開發的演算法表現,還遠遠不及手動編寫規則的機器人,而與其他AI玩家一起合作的設定下,AI玩家之間也完全無法合作,研究團隊指出,花火遊戲的玩家之間不僅要溝通,還需要具備推理的能力,才能合作,這項研究顯示上述兩項挑戰的設定,還有很大的進步空間,期望未來用更進階的技術,理解如何開發擁有類似人類心智的AI程式代理人。

熱門新聞

Advertisement