Google用自動強化學習方法訓練長程跑腿機器人

圖片來源:

Google

Google AI團隊最近發表了透過自動強化學習技術，訓練長程跑腿機器人導航的成果，將強化學習搜尋獎勵和神經網路架構的過程自動化，使機器人能夠在長距離的範圍中導航，Google指出，在美國就有300萬人因為行動不便而無法離開家，具有遠距導航功能的服務型機器人能夠改善行動不便的生活限制，像是幫忙採買生活用品、藥品和領包裹，過去的研究已經展示深度強化學習能夠有效地將感測器收集的資料轉化為行動，例如，讓機器人學會抓取物品，或是控制機器人的活動，不過，深度學習程式通常缺乏對大量實際物理空間的理解，因此，在長距離的導航任務中，無法脫離人類的協助，也無法輕鬆地適應新的環境。

在Google AI研究團隊近期發表的3篇有關機器人導航的論文中，Google整合深度強化學習技術和長範圍的規畫，來研究能夠適應新環境的自動化機器人系統，首先Google訓練局部規畫程式（local planners）學會基本的導航任務，也就是在短距離的範圍中，穿越在障礙物中，且不能撞到障礙物，局部規畫程式將光學雷達感測器收集到的資料，像是線性和角速度（angular velocity）資訊，輸出至機器人控制系統，同時，Google也用自動強化學習（AutoRL）訓練了另一個局部規畫程式，AutoRL是一個能夠自動搜尋強化學習獎勵和神經網路架構的方法，雖然機器人的限制只有10～15公尺，但是局部規畫程式在轉移到真正的機器人和全新的環境時，適應表現相當好，有鑒於該結果，Google用局部規畫程式作為大空間導航系統的模塊，接著，建立以節點表示位置的地圖，當局部規畫程式能夠可靠地模仿真實機器人的活動時，節點之間才會用線連接。

AutoRL是什麼？

Google在第一篇研究機器人導航的論文中，在小型且靜態的環境當中訓練了局部規劃程式，透過一般的深度強化學習演算法來訓練機器人導航，像是深度確認性策略梯度演算法（Deep Deterministic Policy Gradient，DDPG），但是這個方法還是有許多挑戰，例如，研究人員必須不斷重複手動調整獎勵機制和制定神經網路架構，來達到導航程式的目標，但是這些調整都沒有明確的最佳試驗，再加上深度確認性策略梯度演算法是不穩定的學習方法，通常會出現災難性遺忘（catastrophic forgetfulness）問題。

為了克服這些挑戰，Google將強化學習訓練自動化，利用大規模超參數優化方法，開發了能夠自動搜尋獎勵機制和神經網路架構的AutoRL，AutoRL的運作分為兩個部分：獎勵機制搜尋和神經網路架構探索，在獎勵機制搜尋的階段中，AutoRL會訓練一群DDPG程式，每一個程式都有不同的獎勵機制，用來優化局部規畫程式的最中目標，也就是到達目的地，在這個階段的最後，Google會選出一個能夠讓局部規畫程式到達目的地最多次的獎勵機制，而在搜尋的神經網路架構的階段則是用選出的獎勵機制和優化神經網路層，針對獎勵機制不斷進行優化。

不過，這樣迭代的過程也意味著AutoRL有樣本效率（sample efficient）的問題，訓練一個規畫程式需要500萬個樣本，而AutoRL訓練10個100個程式的版本就需要50億個樣本，等於要花32年的時間才能完成訓練，而好處就是AutoRL將手動訓練的過程自動化，且DDPG程式也不會出現災難性遺忘問題，更重要的是，利用AutoRL訓練的機器人導航系統能夠適應新環境，與其他導航方式相比，AutoRL方式的導航成功率多了26%。

為了能夠將這些導航策略應用在長距離的導航任務中，Google整合AutoRL策略和採樣式規畫（sampling-based planning）演算法，採樣式規畫演算法是利用估算機器人運動方式，來處理長程導航任務，舉例來說，隨機路徑規畫演算法（probabilistic roadmaps，PRMs）在路線圖中搜尋有效路徑，來建置機器人運動的路線圖。Google團隊首先針對每個機器人，在一般模擬的環境訓練了一套局部規畫策略，接著，再根據局部規畫策略，為部署環境建立PRMs模型，Google稱之為PRM-RL，為了建置PRM-RL，Google用蒙特卡羅模擬方法，將路徑規畫程式能夠可靠且一致地導航經過的採樣節點連接起來。

AutoRL是什麼？

熱門新聞