Google發展了一種產生圖像和影片遮罩的新方法,利用分層神經渲染,將影片中的物體和背景分開,產生稱為Omnimatte的遮罩,與典型分割模型不同之處在於,這個新方法所生成的Omnimatte不僅是物體本身,同時還能分離出和物體有關的其他細節,包括影子、部分透明的軟效果,甚至是輪胎摩擦地面所產生的煙霧,與傳統遮罩相同的地方是,Omnimatte為RGBA圖像,因此能夠用於廣泛的圖像和影片編輯工具。

圖像和影片編輯操作,仰賴準確的遮罩(Matte),Google提到,雖然最近的的電腦視覺技術,已經可以產生高品質的遮罩,用來產生合成景深、合成圖像,或是去除圖像背景,但與主體相關的細節,像是陰影、反射和煙霧,通常會被切割演算法忽略。

為了產生更實用的遮罩,Google開發了新方法,來切割出包含主體和相關細節的Omnimatte,藉由使用分層神經渲染方法,訓練卷積神經網路(CNN),將主體分割遮罩和背景雜訊圖像,映射到單一Omnimatte中。

研究人員提到,因為CNN的特性,能夠良好地學習主體和相關特效之間的關聯性,兩者的相關性越強,CNN就越容易學習,像是(下圖)在路上行走的人與狗,人和人的影子,以及狗和狗的影子之間的空間關係,都是從右向左移動,不過人與狗的影子,或是狗與人的影子,因為關係變化更大,因此相關性也就相對較弱,CNN會先學習較強的相關性,因此能獲得正確的分解結果。

要生成Omnimatte,輸入的影像會被分成多層,每個移動的物體獨立為一層,靜止的背景物體全部被分為另一層,當這些圖層使用Alpha混合合併在一起時,就能重現輸入的影像。Omnimatte能夠被靈活地應用在各種影像處理應用中,像是只要在圖層組合中刪除特定的圖層,就能夠從影片中刪除物體,並且還可以透過複製圖層來複製物體。

Omnimatte也可以用來操控物體在影片中出現的時間(Retime),研究人員提到,這項特效常被應用在電影之中,但是傳統的作法必須在受控的環境中,為每個單獨的主體拍攝影片,但是分解成為Omnimatte後,即便日常的影片,都能夠簡單地操縱物體時序,只需更改每一個圖層的播放速度,就能達到過去必須要對每個物體重新拍攝,才能達到的效果,而且由於Omnimatte是標準的RGBA圖像,因此可以使用傳統的影片編輯軟體來編輯物體的時間軸。

(下圖)影片被分解成三個圖層,每個小孩一層,在原始的影片中,每個小孩跳入水裡的時間不同,但是透過調整Omnimatte播放的時間軸,就能夠讓三個小孩同時跳入水中,並且擁有水花和反射等逼真效果。

不過這個Omnimattes技術仍然有其限制,目前只能用來處理固定相機位置的影像,當相機移動時,便無法精確地捕捉整個背景,部分背景元素可能遮蓋上圖層,另外,CNN在學習相關性上雖然非常強大,但是部分時候產生的結果不如預期,且無法切確掌握原因。研究人員也提到,這項技術可能遭到濫用,即便重新排列的物體,皆為影片中已經存在的內容,但是只要簡單地調整影片內容的順序,就可以被用來產生虛假和誤導性訊息。

熱門新聞

Advertisement