來自臉書、柏克萊大學和卡內基美隆大學的研究人員,開發了一種稱為RMA(Rapid Motor Adaptation)的技術,能夠讓有腿可行走的機器人,即時且智慧地適應地形和路面材質,在各種路況中行走。RMA採用兩種子系統組合,其一是以增強學習訓練的基本政策,另一個則是經監督式學習訓練的適應性模組,該方法展示了智慧代理在不使用視覺輸入的情況下,有能力適應環境,像是突然增加負重,或是在不同摩擦力的路面行走。

人類可以輕鬆地在岩石、泥濘、厚地毯,甚至是跳床上行走,透過調整肌肉和腳踝角度適應各種路況,甚至可以攜帶各種形狀、大小和重量的物體。而機器人要擁有跟人類一樣的行走能力,也需要適應各種表面的能力,並且可以攜帶各種物體,即便過去從未接觸過這些條件,機器人要能避免跌倒,在數分之一秒內快速反應。

臉書RMA機器人行走能力全靠學習而來

研究人員提到,有腿的步行機器人到目前為止,開發人員需要依照環境,以幾乎完全人工撰寫程式碼的方式,來指引機器人在環境中移動,但是要真正適應現實世界無限變化的唯一方法,便是要教機器人,能以類似人類的方式學習適應,要賦予機器人這種適應現實世界能力,需要在虛擬世界中,經過數百萬次的模擬訓練。

RMA是第一個完全基於學習的系統,透過探索和世界互動,使得機器人可以從頭開始適應環境,RMA使用端到端學習,直接輸出關節位置,不依賴預定義的腿部運動或是其他控制原語。然而,這些先在虛擬環境中模擬學習的機器人,在部署到現實世界的時候,會出現許多挑戰,模擬器中的模型與實際機器人通常會有些微不同,像是在發送訊號到驅動器時,可能存在微小的延遲,又或是腳上的磨損可能讓路面走起來不那麼滑,甚至是關節的角度可能偏離百分之一度。

研究人員提到,物理世界本身就存在複雜性,在自由空間中運動的剛體,無法在模擬器中被精確捕捉,特別像是床墊或是泥巴表面,在接觸的時候會變形。在模擬中的標準化環境,到了現實世界變得多樣且複雜,當考慮到室內或是室外環境的時候更是如此,現實世界的環境條件不停改變,這也讓步行機器人掌握現實環境更加困難。

RMA技術由兩非同步運作的子系統組合而成

RMA使用兩個子系統來克服這些挑戰,分別是基本政策和適應模組。基本政策在增強學習中模擬學習,使用精心設置的環境資訊,像是模擬更滑或是較不滑的地面,以及不同坡度的斜坡等,使得機器人可以在不同的外在因素中,學習正確地控制身體。

但是無法只用基本政策來部署機器人,因為在訓練基本政策的時候,無法得知機器人在現實世界時,所會遭遇到的外在因素,所以必須仰賴機器人,自學在自己動作下所產生的資訊。研究人員提到,關節實際運動和命令的預期運動,兩者存在的差異取決於外在因素,像是位於機器人腿部的障礙物,會阻擋機器人的腿無法移動,但也會提供有關地面高度的資訊,同樣,柔軟的表面,腿會因為下沉延伸的更遠,而在堅硬的表面反應又不同。

因此機器人遇到模擬之外的外在因素,就必須要使用由監督式學習所訓練的適應模組,以根據機器人最新的歷史狀態來進行預測。透過結合基本政策和適應模組,機器人可以在數分之一秒的時間,快速適應新條件。這兩個子系統可以平行並且以非同步的方式順暢運作,基礎政策運算較快,自適應模組運算較慢,以非同步的節奏執行兩個子系統,可讓機器人使用小型機載電腦運算RMA,基礎政策可以讓機器人以較高的頻率行走,而自適應模組則可以在準備好時,以較低的頻率發送指令。

實驗證明,支援RMA的機器人可以成功穿越幾個具有挑戰性的環境,像是沙灘、泥濘、高草或是泥土堆,性能比沒有支援RMA的機器人好上許多,而且甚至等於或優於人工編寫控制器的Unitree機器人。RMA機器人在這些路況環境中試驗沒有失敗過,而下樓梯的成功率達到70%,穿過鵝卵石等難走的地面,成功率也達到80%。RMA機器人也能夠以很高的成功率,負荷與自身體重相當的物體行走。

RMA機器人展示了先進的機器人技術,可以在現實世界中部署新型、高性能且適應性強的步行機器人,同時也展示了人工智慧技術正改變機器人領域的研究,完全依賴學習的機器人,可以使用更便宜更不精確的硬體,這將能夠大幅降低機器人的成本。

熱門新聞

Advertisement