Google大腦、英特爾和柏克萊大學合作開發了一種稱為Motion2Vec的演算法,讓機器人透過觀看影片,學習執行外科手術的相關任務,完成包括縫合、穿針以及打結等動作,研究人員將其實際應用在雙臂達文西外科手術系統,在實驗室中成功讓針穿過布料。

研究人員提到,在嵌入空間(Embedding Space)學習有意義的視覺表示,可以促進發展動作分割和模仿等任務。最新的Motion2Vec演算法,透過最小化孿生神經網路度量學習(Metric Learning)損失,從影片中學習深度嵌入特徵空間,研究人員表示,演算法在學習時,會講究圖像的排序,將同一動作片段的圖像匯集在一起。

Motion2Vec是一種半監督式學習演算法,其命名規則類似Word2Vec和Grasp2Vec等模型,都是從影片中學習動作,在孿生神經網路中,將相似動作分割和度量學習結合在一起,習得一個深度嵌入特徵空間。柏克萊大學之前就曾使用YouTube影片來訓練人工智慧跳舞、後空翻和各種雜耍,而Google也有相關研究,是使用影片教四足機器人學習狗的靈活動作。

研究人員提到,透過專家示範的影片,可以訓練機器人操作技能,以改進用於手術的機器人,實驗結果顯示,Motion2Vec的表現比目前最先進的方法都還要好。Motion2Vec從JIGSAWS資料集的公開影片中模仿手術縫合動作,達到了平均85.5%的分割精準度,比參考文獻的分割精準度更高,而在對手術縫合影片進行運動模擬時,每個測試集觀察到的位置誤差為0.94公分。研究人員提到,他們並未對針和縫合目標進行接觸動力學建模,而是僅在運動層級模擬縫合動作。

JIGSAWS是JHU-ISI Gesture and Skill Assessment Working Set的縮寫,該資料集包含了來自約翰霍普金斯大學,和生產達文西外科手術系統的直覺外科公司的手術影片。

熱門新聞

Advertisement