Openai訓練神經網路可操作單個機器手掌解決魔術方塊

Openai最新的人工智慧研究成果，是用單個機器手掌就能解決魔術方塊，他們使用與操作⟪Dota 2⟫人工智慧OpenAI Five相同的增強學習程式碼，搭配上一種稱為自動域隨機化（Automatic Domain Randomization，ADR）的新技術，以完全模擬的方式訓練機器手掌，現在機器手掌能以60％的成功率解開魔術方塊。

對人類來說，單手解決魔術方塊也不是一件簡單的事，人類孩童需要花費數年的時間，才能掌握單手操作需要的靈巧性。在過去60年的機器人技術，人類需要為困難的任務設計客製化的機器人，因此開發使用通用機器人硬體的方法，一直是近幾十年人類的目標，而Openai在這項最新的研究中，使用15年前的機器手掌，搭配最新的方法，在通用機器人硬體操作課題上前進了一步。

Openai利用了神經網路來解決魔術方塊的問題，透過增強學習進行模擬，並且使用柯西姆巴（Kociemba）演算法以挑選魔術方塊解法的步驟，並且利用域隨機化（Domain Randomization）將訓練模擬轉移到真實的機器手掌上。

而讓機器手掌操作魔術方塊最大的挑戰，是在創建的模擬環境中，模擬出真實世界特徵，研究人員表示，像是魔術方塊或是機器手掌這類複雜的物體，非常難模擬其摩擦、彈性或是動態性，僅是靠現有的域隨機化技術是遠遠不夠的，因此為了克服這個問題，他們開發了自動域隨機化技術，這個技術可以在模擬訓練中產生越來越困難的環境。

自動域隨機化訓練會從單一且非隨機的環境開始，讓神經網路先學會解決魔術方塊，隨著神經網路的表現越來越好，在達到一定的效能閾值時，域隨機化的數量便會自動增加，讓神經網路應付更隨機的環境，使得需要解決的任務更加困難，當神經網路不斷學習後，再次超過效能閾值時，便會再加入更多的隨機化，然後重複該過程。

自動域隨機化的參數有很多種，一開始從固定魔術方塊的大小開始，之後隨著訓練逐漸增加隨機範圍，變動魔術方塊的尺寸和重量，也會隨機化機器手指的摩擦力和手的視覺表面材質，神經網路需要在越來越困難的情況下，解決魔術方塊。

研究人員提到，過去域隨機化需要手動指定隨機範圍，但這並不容易，太多隨機化使得學習太困難，太少又會阻礙模擬轉移到真正機器人上的效果，而自動域隨機化能夠自動擴展隨機範圍，不需要人工干預，也不需要研究人員對域知識的理解，降低了該方法使用到不同領域的難度，而且由於自動域隨機化讓訓練任務始終具有挑戰性，訓練成效不會收斂。

自動域隨機化讓神經網路在無數種隨機情況中進行模擬，進而增加了強健性，當神經網路從模擬轉移到真實機器人上的時候，就能夠快速辨識並適應真實世界的環境條件。研究人員利用了各種擾動，以測試機器手掌解決魔術方塊的強健性，包括把機器手掌的兩隻手指綁起來、戴上橡膠手套、阻礙視覺或是以長頸鹿玩偶隨意干擾等。

在施予擾動的初期，機器手掌解決魔術方塊的時間都會上升，研究人員解釋，這是因為之前學習的策略無法發揮作用，當經神經網路過一段時間學習之後，完成的時間便會下降到之前的水準。

目前Openai的成果，在需要15次翻轉才能完成魔術方塊的條件，機器手掌有60％的成功率解決魔術方塊，但是在需要26次翻轉的複雜條件，現在機器手掌就只有20％的成功率。研究人員提到，他們的神經網路在前幾次的翻轉，魔術方塊掉落的機率特別大，這是因爲神經網路需要透過初期的翻轉適應物理世界。

熱門新聞