不需人為標記資料，Google讓機器人從抓取物體的過程中自己學會辨識物體

Google提出了簡單且高效能的演算法Grasp2Vec，讓機器人從自我監督式抓握中，學習物體表示的方法，在不需要人類標記資料的情況下，學習物體辨識。

人類從小時候就具備將物體撿起的能力，即便沒有被明確的教導過該怎麼做。而在認知發展研究中認為，與物體互動的能力，在物體感知和操縱能力中扮演重要角色。人類可以透過與周遭物體互動，知道該怎麼抓取並從結果中自我學習。

而對於機器人來說，自我學習可讓系統在不需要許多訓練資料或是手動監督下進行學習。Google受物體恆存（Object Permanence）的概念啟發，發展出了Grasp2Vec，這是一種用於獲取物體表示的高效能演算法。Grasp2Vec的運作基於一系列的事實，包括機器人要抓住物體並將其舉起，該物體勢必存在於場景中，另外，機器人知道抓住的物體，存在於當前抓取器中，因此會在場景中消失。透過這種形式的自我監督學習，機器人可以在抓取物體後的場景視覺變化學習辨識物體。

基於Google與X Robotics先前的合作成果，Google使用機器手臂隨意地抓取物體，而該經驗將啟動物體豐富表示方法的學習，而該表示方法將能被用來訓練有意圖的抓取能力，執行人類要求撿起物體的命令。

在增強學習的框架中任務成功與否，是以獲得的獎勵來衡量，而在Google的這項機器手臂抓取實驗中，設計獎勵是一個困難的挑戰，Google提到，在實際抓取任務中，研究人員向機器人展示預期抓握物體的照片，而機器人試圖抓取該物體後，便會檢查手臂中的物體內容。而這個任務的獎勵則轉變成了物體辨識問題，判別抓取的物體與照片是否相符。

而為了解決這個辨識問題，Google需要開發出特別的感知系統，該系統能從非結構化的圖像資料，在沒有任何人類標記的情況下，萃取有意義的物體概念，以非監督的方式學習物體的視覺感知。Google讓系統收集機器手臂操作物體的資料，透過抓取物體，將其從場景中移除，來取得需要的圖像資料，這個過程會產生三種圖像，第一是抓取物體前的場景圖，第二則是抓取物體後的場景圖，最後則是抓取物體本身的單獨圖片。

這三張圖的關係是，抓取前場景的圖減去抓取後場景的圖，所剩下的物體應等於抓取物體本身。Google使用完全卷積架構和簡單的測量學習演算法（Metric Learning Algorithm）來計算以上的等式關係。在經過訓練後，模型會產生兩個有用的屬性，分別是物體相似性以及本地化目標物體。

物體相似性是向量嵌入間的距離，可以用來比較物體並確定這些物體是否相同，以實現增強學習的獎勵機制，並允許機器人在沒有人工標籤的情況下，學習實體抓取。本地化目標物體屬性則可以組合場景映射和物體嵌入，在本地化圖像空間中查詢物體，透過獲取空間元素圖的元素乘積，以及與查詢物體相符的向量，能夠找到空間映射與查詢物體相符的所有像素。

在本地化圖像空間中查詢物體後，所得到的熱區圖，可以用來規畫機器人接近物體的方法，研究人員將Grasp2Vec本地化和實體辨識功能，與任意抓取政策結合，在機器人抓取物體並資料收集過程，辨識出物體的成功率達80％，而辨識新物體的成功率也有59％。

這個研究展示了機器人抓取技能產生的資料，可被應用於學習物體中心的表示法，而該表示法有助機器人學習更多複雜的行為，並且仍可以保留自動抓取系統的自我監督學習屬性。

熱門新聞