抓握物體對人類來說是很簡單的工作,要教會機器人卻相當不容易,Google先是發表不需要人工設定軌跡,就能抓取特定物體的研究,現在還要讓機器人行為更像人,可以讓機器人從一大群雜亂的物體中,像人一樣撈出目標物,或是推開阻礙抓取目標的物體,再進行抓取物體。透過稱為QT-Opt的演算法,可以使用較少的訓練資料就能達到更好的成效,由於真實的機器人資料難以收集,因此這對於機器人學習是很令人振奮的事。

目前機器人系統都只能在生產線上建置產品,這類受控環境中執行重複性任務的工作。而要機器人觀察周圍環境並決定出最佳行動方案,同時對於意想不到的結果做出反應,Google提到,要教機器人這種概括不同現實世界物體和情境的能力非常困難。

目前有兩種工具可以提供機器人類似的能力,第一種是深度學習,可以處理非結構化現實場景,另一種則是增強學習,讓機器人擁有更長期的推理,並展現強大的順序決策能力。Google表示,結合這兩項技術可以讓機器人自行從經驗中不斷的學習,而不需要手動工程控制機器人的基本運動。但即便有了這個方向,前進的路途仍然充滿挑戰,真實世界物體具有各種不同的外觀以及物理特性,即便是接觸力細微的不同,都會讓預測物體移動變的困難,甚至可能造成視覺上的阻擋。此外,機器人感測器的資料雜訊很多,同時也增加了資料應用的複雜度。

這些原因使得要發展出一個通用型的解決方案變得不容易,除非有足夠的時間收集多樣的訓練資料,但由於收集機器人的訓練資料非常困難,促使了研究團隊往開發更強大的學習演算法前進,最好能夠重複使用過去的經驗,直接從大型資料集中獲得必要的資源。但是這些還不夠,機器人還需要能推斷行為帶來的長期後果,這對於掌握技能至關重要,

Google為此使用了新政策(Off-policy)增強學習,這個設計能讓學習演算法從大量過去多元的互動中,獲取有用的經驗,Google使用擬合深度Q-learning演算法結合大規模分散式最佳化,發展出稱為QT-Opt的演算法,這個分散式學習演算法支援連續動作空間,非常適合用來解決機器人的問題。

Google使用收集來的資料,在不需要實際控制機器人的情況下離線訓練模型,模型訓練完成後再部署到真實機器人上進行微調,而在執行QT-Opt演算法的同時,也能累積更多可用於訓練模型的離線資料。為了將這個演算法用於機器人抓握,Google以7個真實機器人,在4個月內運行800小時,而且為了加速資料收集,他們先使用人工設計的政策,在15-30%的運行時間都能成功執行任務後,再將資料收集切換到訓練模式。該政策是拍照並回傳機械手臂的動作,離線資料包含抓取一千種不同物體的資訊。

由於跨機器人的抓取經驗可以互相分享,7個機器人共享58萬次的大型抓握資料集,最後研究團隊獲得了一個真實世界機器人的抓握政策,從數量上來看,QT-Opt演算法在沒看過的物體進行700次的抓握,達96%的成功率,比先前監督學習抓握法的成功率78%,錯誤率下降了5倍。

當一群物體組成一個閉鎖環狀時,機器人自動發展出在撿取特定物體之前,先推開其他物體,再進行抓取。另外,當機器人第一次嘗試抓取物體失敗時,會改變方向重新定位後,再次進行抓取直到成功。當機器人要從一大群物體中抓取特定物體時,會先在物體中撈一撈,直到可以抓住目標為止。而且當人們故意將機器人抓住的物體拍落時,機器人也會自動重新定位後,再次撿起物體。

而這些類似人類操作物體的行為都不是人工設計的,而是系統以QT-Opt自我監督訓練下學習的。Google還提到,QT-Opt能夠使用更少的訓練資料,達到更好的訓練成效,這對於訓練瓶頸通常在於收集訓練資料的機器人研究,是一件令人興奮的發現。而QT-Opt是一種通用的增強學習方法,用途並不僅限於機器人抓握,未來他們還會繼續使用在其他機器人研究上。

 

熱門新聞

Advertisement