YouTube如何做到即時影像置換背景？Google不藏私開源給你用

Google研究團隊開源在Tensorflow中實作的語意影像切割（Semantic Image Segmentation）模型DeepLab-v3+，包括Google Pixel 2和Pixel 2XL手機上的肖像模式（Portrait Mode），以及YouTube為影片即時去背換背景功能，都是這項技術的應用。

Google研究軟體工程師Liang-Chieh Chen以及Yukun Zhu表示，語意影像切割的主要目的，就是為每個畫素指定語意標籤，諸如路、天空、人或是狗等物體，不少的程式需要這樣的功能，像是合成景深（Synthetic Shallow Depth-of-field）效果，應用在手機Pixel 2和Pixel 2XL上提供的肖像模式（Portrait Mode），能自動模糊人物的背景，作出類似單眼相機的景深效果。

另外，在多數攝影App都會提供的即時影像切割（Video Segmentation），例如最近在YouTube發表的新功能，為影片即時去背換背景的功能，也是語意影像切割的應用。

DeepLab-v3+在Tensorflow上實作，使用部署於伺服器端的卷積神經網路（CNN）骨幹架構，以獲取最佳的結果。除了程式碼之外，研究團隊也同時公開了Tensorflow模型訓練以及評估程式，以及使用Pascal VOC 2012與Cityscapes資料集訓練的模型。

DeepLab-v3+技術是基於三年前的DeepLab模型，期間改進了卷積神經網路特徵萃取器、物體比例塑模以及同化前後內容的技術，再加上進步的模型訓練過程，還有軟硬體的升級，從DeepLab-v2到DeepLab-v3，直到現在發表的DeepLab-v3+，讓效果一代比一代好。

DeepLab-v3+是由DeepLab-v3擴充而來，研究團隊增加了解碼器模組，能夠細化分割結果，能夠更精準的處理物體的邊緣，並進一步將深度卷積神經網路應用在空間金字塔池化（Spatial Pyramid Pooling，SPP）和解碼器上，大幅提升處理物體大小以及不同長寬比例的能力，最後得到強而有力的語意分割編碼解碼器網路。

Liang-Chieh Chen以及Yukun Zhu特別提到，隨著軟硬體的升級，建構在卷積神經網路上的現代語意圖像分割功能，可以達到的水準已經遠遠超過5年前的想像。

熱門新聞