臉書發表多個影像辨識方法，可良好預測2D圖像中的3D物體形狀

臉書發表了數篇電腦視覺論文，主題圍繞在人工智慧系統對於3D場景的理解，包括發表最新的Mesh R-CNN方法，可從2D圖像中精確預測物件3D形狀，還發展出一種稱為C3DPO的方法，能夠偵測物件的2D關鍵點（Keypoint）進而產生3D關鍵點，另外，也開發出一種能夠學習圖像與3D形狀關聯性的方法。

Mask R-CNN一直以來都是理解圖像強而有力的工具，但僅針對2D的圖像，而臉書改進並發展Mesh R-CNN方法，讓使用者可利用2D圖像，並透過3D物體重建模型，預測圖像中物體的3D形狀，而且還能夠不受真實世界圖像的光學因素影響，包括物件遮蔽、光線混淆和各種拓樸等限制。

臉書應用了2D物體分割系統，先使用Mask R-CNN偵測與分類圖像中的不同物件，然後使用網格預測器來預測3D形狀，該預測器混合Voxel預測以及網格精細化方法。臉書新的Mesh R-CNN方法訓練用的資料，只使用1萬組圖像與網格模型的配對，這個數量比起一般需要動輒十萬組圖像與物體註釋資料集的方法少得多。

而對於網格物體沒有相對應的訓練圖像，且在無法訓練和完全重建靜態物體的情境下，臉書開發了替代方法C3DPO（Canonical 3D Pose Networks），該方法透過大量的2D關鍵點來重建3D關鍵點模型，並且可精確地區分不同視點變化和形狀變形。C3DPO是第一個能夠重建具有數千個2D關鍵點圖像資料集的方法，而這種重建在過去因為記憶體的限制而無法實現。臉書提到，C3DPO使用弱監督方法幫助臉書理解3D幾何形狀，適合大規模部署。

臉書進一步開發出需要更少監督訓練的通用物體3D理解方法，只要利用未註釋的圖形集合，和粗略的自動實例分割就能獲得圖像和3D圖像間的關聯。臉書強調，這個方法不明確預測圖像的3D結構，而是解決圖像的畫素映射到3D形狀的問題，能夠讓臉書從種類等級（Category-Level）3D形狀來理解圖像，並且歸類相同種類的相對應物體，像是能夠快速找出同為鳥類的鳥喙。

臉書提到，這個方法的學習不需要太多監督，就可以實現從將畫素映射到3D表面，或是逆向操作從3D映射到畫素上，學習的資料可以使用粗略分割無註釋、免費公開的圖像資料集，並可以與其他3D物體預測方法互補使用。

熱門新聞