TensorFlow釋出能倒推3D場景參數的電腦視覺深度學習函式庫

TensorFlow釋出可微分圖形（Differentiable Graphics）層TensorFlow Graphics，這是用來幫助訓練電腦視覺模型的函式庫，官方提到，由於要用來訓練3D視覺任務模型的標籤資料取得不易，而TensorFlow Graphics能夠自動推測3D場景參數，以加速電腦視覺深度學習應用建置。TensorFlow Graphics第一個釋出的版本，相容與TensorFlow 1.13.1以上版本。

簡單來說，電腦圖形工作管線需要3D物體在空間中的絕對位置、物體材質描述、燈光以及相機設定，由渲染器產生合成渲染（Synthetic Rendering），而電腦視覺的應用則是反向的渲染工作管線，需要從場景圖像往回推算場景參數，預測場景中的物體、材質以及物體在3D空間的位置與方向。

官方提到，電腦視覺應用的發展門檻在於訓練模型用的標籤資料難以取得，而這是因為訓練用的標籤資料，其標記過程複雜需要耗費大量的時間與金錢，因此要促進電腦視覺的應用，有必要建立不需要太多監督的機制，也能理解3D世界的方法。TensorFlow Graphics透過電腦圖學以及電腦視覺技術，已經可以將大量未標記資料應用於訓練上。

TensorFlow官方提到，現在透過合成分析就能達成這件事，從圖形系統中萃取出場景參數，並利用這些參數再次渲染圖像，當渲染的圖像與原始圖像相符，則表示圖像系統精確地推理出場景參數，在這樣的設置中，電腦視覺與電腦圖學相輔相成，構成了一個類似自動解碼器，可以進行自我監督訓練的單一機器學習系統。

TensorFlow Graphics現在能提供多種有用的功能，可用來訓練神經網路預測物體旋轉或是平移等移動轉換（Transformations），這樣的功能適合用於與環境互動的機器人，可以讓機器人精確地計算物體與機械手臂的相對位置，抓住正在移動的物體。TensorFlow Graphics還能用來預測物體材質（Materials），而這能讓神經網路學習材質與光的互動，將其應用在擴增實境中，可以為實際環境中擺放的虛擬傢俱，透過光影渲染使其更融入現實環境中，幫助用戶理解傢俱外觀。

在幾何應用上，TensorFlow Graphics提供3D卷積（Convolutions）和池化（Pooling）功能，讓神經網路對模型網格進行語義分類（下圖）。另外，TensorFlow Graphics還提供了TensorBoard外掛程式，讓開發者能以互動的方式查看3D模型進行視覺除錯。

熱門新聞