Openai最新的人工智慧研究成果,是用單個機器手掌就能解決魔術方塊,他們使用與操作⟪Dota 2⟫人工智慧OpenAI Five相同的增強學習程式碼,搭配上一種稱為自動域隨機化(Automatic Domain Randomization,ADR)的新技術,以完全模擬的方式訓練機器手掌,現在機器手掌能以60%的成功率解開魔術方塊。

對人類來說,單手解決魔術方塊也不是一件簡單的事,人類孩童需要花費數年的時間,才能掌握單手操作需要的靈巧性。在過去60年的機器人技術,人類需要為困難的任務設計客製化的機器人,因此開發使用通用機器人硬體的方法,一直是近幾十年人類的目標,而Openai在這項最新的研究中,使用15年前的機器手掌,搭配最新的方法,在通用機器人硬體操作課題上前進了一步。

Openai利用了神經網路來解決魔術方塊的問題,透過增強學習進行模擬,並且使用柯西姆巴(Kociemba)演算法以挑選魔術方塊解法的步驟,並且利用域隨機化(Domain Randomization)將訓練模擬轉移到真實的機器手掌上。

而讓機器手掌操作魔術方塊最大的挑戰,是在創建的模擬環境中,模擬出真實世界特徵,研究人員表示,像是魔術方塊或是機器手掌這類複雜的物體,非常難模擬其摩擦、彈性或是動態性,僅是靠現有的域隨機化技術是遠遠不夠的,因此為了克服這個問題,他們開發了自動域隨機化技術,這個技術可以在模擬訓練中產生越來越困難的環境。

自動域隨機化訓練會從單一且非隨機的環境開始,讓神經網路先學會解決魔術方塊,隨著神經網路的表現越來越好,在達到一定的效能閾值時,域隨機化的數量便會自動增加,讓神經網路應付更隨機的環境,使得需要解決的任務更加困難,當神經網路不斷學習後,再次超過效能閾值時,便會再加入更多的隨機化,然後重複該過程。

自動域隨機化的參數有很多種,一開始從固定魔術方塊的大小開始,之後隨著訓練逐漸增加隨機範圍,變動魔術方塊的尺寸和重量,也會隨機化機器手指的摩擦力和手的視覺表面材質,神經網路需要在越來越困難的情況下,解決魔術方塊。

研究人員提到,過去域隨機化需要手動指定隨機範圍,但這並不容易,太多隨機化使得學習太困難,太少又會阻礙模擬轉移到真正機器人上的效果,而自動域隨機化能夠自動擴展隨機範圍,不需要人工干預,也不需要研究人員對域知識的理解,降低了該方法使用到不同領域的難度,而且由於自動域隨機化讓訓練任務始終具有挑戰性,訓練成效不會收斂。

自動域隨機化讓神經網路在無數種隨機情況中進行模擬,進而增加了強健性,當神經網路從模擬轉移到真實機器人上的時候,就能夠快速辨識並適應真實世界的環境條件。研究人員利用了各種擾動,以測試機器手掌解決魔術方塊的強健性,包括把機器手掌的兩隻手指綁起來、戴上橡膠手套、阻礙視覺或是以長頸鹿玩偶隨意干擾等。

在施予擾動的初期,機器手掌解決魔術方塊的時間都會上升,研究人員解釋,這是因為之前學習的策略無法發揮作用,當經神經網路過一段時間學習之後,完成的時間便會下降到之前的水準。

目前Openai的成果,在需要15次翻轉才能完成魔術方塊的條件,機器手掌有60%的成功率解決魔術方塊,但是在需要26次翻轉的複雜條件,現在機器手掌就只有20%的成功率。研究人員提到,他們的神經網路在前幾次的翻轉,魔術方塊掉落的機率特別大,這是因爲神經網路需要透過初期的翻轉適應物理世界。


Advertisement

更多 iThome相關內容