圖片來源: 

Google

對開發自主機器人而言,感知場景深度是一項重要的任務,準確地預估機器人與物體的距離,是自動導航、迴避障礙物,安全規畫等能力的關鍵,Google研究團隊最近提出一項創新的作法,來產生移動物體的深度評估結果,跟過去的方法相比,Google的新方法,能夠重現移動物體正確的深度,為了鼓勵開發社群開發出更多進階的方法,Google也將這次的研究透過TensorFlow在GitHub中開源釋出

深度的感知可以透過感測器數據來學習,也能仰賴機器人移動產生的不同場景影像,用非監督式的方法學習,在移動的過程中,機器人也會學習到自我運動(ego-motion),來定位自身的位置,這種方法行之有年,近期也有不少研究加入深度神經網路來訓練模型,不過,學習預測場景的深度和自我運動還是具有挑戰性,尤其是處理高動態場景時和評估移動物體的適當深度時,因為過去的研究並沒有針對移動中的物體建立模組,因此在評估移動物體的深度時,結果通常是輸出無限深度的錯誤評估。

Google找到新的方法解決了用單眼(monocular)相機,預測深度和自我運動的無監督學習問題,也解決了高動態場景中的問題,新方法的主要想法就是將結構導入學習框架,也就是說,不直接透過神經網路來學習場景的深度,而是將場景視為包含機器人本身和移動物體的3D影像,並將個別的運動分為獨立的轉換(transformation),包含場景中用來建立3D幾何學和評估物體運動的轉換角度(rotation)和相對位移(translation)。除此之外,了解可能移動的物體,像是車子、行人或是腳踏車等,也有助於學習不同的運動向量。尤其是在高動態的場景,將場景拆解為3D和獨立的物體,能夠提升深度和自我運動的學習。

Google用城市駕駛的資料集KITTI和 Cityscapes測試該方法,發現新方法的成果勝過現行的做法,更重要的是,該方法能夠正確地重現與自我運動車輛移動速度相同的車輛的深度,這項工作在之前是一項很大的挑戰,因為在這種情況下,移動的車輛顯示為靜止,顯示出與靜態地平線一樣的特徵,因此,過去的判斷方法會將其視為無限的深度。此外,也因為Google的新方法是單獨處理物體,演算法能夠針對每個單獨的物體計算運動向量,來評估物體移動的方向。

除了上述的成果之外,Google還表示,該研究也提供未來研究非監督式方法的方向,相較於立體視覺(Stereo)和光達(Light Detection And Ranging,LiDAR)感測器,單眼資料相對較便宜,且更容易部署。

熱門新聞

Advertisement