為了增加機器人應對真實世界的能力,Google發展了深度增強學習Soft Actor-Critic,這是基於最大熵(Entropy)框架的深度學習演算法,能讓機器人更快學習技能以應付真實世界環境,由於規則直接從真實世界習得,因此機器人可以展現應對不同的環境的強健性。

深度增強學習透過通用神經網路表示,擁有處理複雜感知輸入的能力,能讓機器人全自動地從真實世界的經驗與互動學習行為,但是Google提到,現在許多的深度增強學習都需要數天甚至數周的真實世界資料,才足以應付行為需求。而這樣的系統難以部署在像是腿式機器人的複雜機器人系統上,Google表示,這些系統在探索階段很容易損壞,超參數設定又難以調校,各種安全性考量為部署帶來了限制。

Google與加州大學柏克萊分校合作開發了Soft Actor-Critic,這是適用於真實世界的機器人技能學習演算法。Soft Actor-Critic提供高效率的學習能力,能在數小時內解決實際的機器人問題,並且只以一組超參數在不同的環境下工作。Soft Actor-Critic解決真實世界訓練機器人的障礙,包括良好的採樣效率能降低學習時間,最小化需要調校的超參數數量,還要能夠重複使用不同場景收集的資料,最重要的是學習和探索過程不會損壞硬體。

Soft Actor-Critic基於最大熵增強學習,這個框架的目的在於最大化預期的獎勵,同時也最大化政策的熵,擁有更高熵的政策代表更加隨機,也就是說,最大化熵增強學習適合高報酬的最隨機政策。Google提到,當政策可以在訓練時容忍高度隨機的行為,則更有可能在測試時,成功回應預期外的擾動(Perturbation),最大化熵可以增加超參數的強健性以及採樣效率。

Soft Actor-Critic透過學習隨機政策以最大化熵參數獎勵,這個政策將狀態映射到動作以及Q函式,該函式估計當前政策的目標值,Google使用近似動態程式開發的概念對其進行最佳化。如此,Soft Actor-Critic將目標視為基礎方法,以導出更佳的增強學習演算法,提供一致性與足夠回應真實世界機器人應用的效率。

Google進行兩個實驗,分別是讓Ghost Robotics的Minitaur機器人,在各類地形進行四足行走,以及讓三指Dynamixel Claw機器人旋轉閥門。在第一個實驗,Google先在平坦的地形訓練政策,隨後讓機器人在不同的地形和障礙物上行走,目標是讓機器人不需要額外的學習,就可以在各類地形上行走。

而操作閥門的任務,Google提到,除了具有感知挑戰,還需要控制9個自由向度的機器手,難度異常的高。Soft Actor-Critic使用原始RGB圖像感測閥門旋轉,每一次訓練閥門的初始位置都被隨機均勻地重置,迫使政策學習使用原始RGB圖像來感知當前的閥門方向。

實驗證實,Soft Actor-Critic能夠快速地解決這兩個任務,由於Minitaur機器人行走任務簡單得多,Soft Actor-Critic只花了2小時就學習完成,轉動閥門較久需要20個小時,但如果不用圖像,而是直接提供Soft Actor-Critic轉動閥實際的位置,則只要7.4小時的訓練時間。


Advertisement

更多 iThome相關內容