臉書對外開源可將PyTorch用於3D深度學習的函式庫PyTorch3D,PyTorch3D經高度模組化以及最佳化,內含常用的3D運算子與損失函式,還有模組化微分渲染API,可讓開發者處理可微分的3D資料,並且馬上將這些功能加入到當前的深度學習系統中。

3D理解在人工智慧系統與真實世界互動上,扮演一個重要的角色,包括讓機器人可以在物理空間中導航,也能用來改善虛擬實境的體驗,甚至是辨識被遮擋的物體。臉書提到,跟2D理解相比,之所以深度學習技術較少用於3D理解,是因為要將神經網路與3D資料搭配使用非常複雜,需要有更多的記憶體與運算需求,不像2D圖像可以簡單地用張量表示,在缺乏可使用的工具與資源,許多傳統圖形運算子不可微分,都是3D深度學習發展受到限制的原因。

為此臉書建置了PyTorch3D函式庫以推動3D深度學習研究,與PyTorch專為2D辨識最佳化的函式庫類似,PyTorch3D提供了3D運算子與損失函式,可最佳化批次訓練與預測能力。為了簡化3D模型批次處理的複雜度,臉書創建了Meshes格式,這是一種專為深度學習應用程式設計,用於批次處理的異構網格模型資料結構。

這種資料結構可以讓研究人員以最有效率的資料表示法,將基礎網格模型資料,快速轉換成不同的視圖以配對運算子,也就是說,PyTorch3D讓開發者可以靈活地切換不同視圖,並且存取不同的網格屬性。

渲染是3D模型轉換成2D圖像的計算機圖學核心,這是橋接3D場景屬性和2D圖像畫素的方法,但由於傳統的渲染引擎無法微分,因此不能合併進深度學習工作管線,為此,臉書在PyTorch3D中放入了高效能的模組化微分渲染器,這個實作由可組合的單元構成,讓開發者可以簡單地擴充渲染器,以支援自定義光照或是著色效果。

臉書將這些功能打包成工具包,提供最佳化運算子、異構批次處理功能和模組化可微分渲染API等,幫助研究人員進行複雜的3D神經網路應用研究。

熱門新聞

Advertisement