Nvidia公布能將2D影片轉成3D的AI模型Neuralangelo

圖片來源:

Computer Vision Foundation

Nvidia本周公布能將2D影片片段轉成3D的AI模型Neuralangelo。

由Nvidia研究院發展的Neuralangelo利用神經網路，能將2D影片片段轉化成細節豐富、具備紋理的3D結構，像是建築、雕刻及其他真實物體，讓創作者可產生3D物件，匯入其設計應用、或進一步編輯用於藝術、電玩開發、機器人或產業數位分身（digital twins）。

傳統重建3D場景的AI模型無法精確捕捉重覆性質地樣式、同質色彩及變化太大的色彩。Neuralangelo使用即時神經繪圖原語（instant neural graphics primitives）來捕捉這些微妙的細節。即時神經繪圖原語也是Nvidia圖像渲染技術Instant NeRF背後的技術。

Nvidia強調，Neuralangelo最厲害之處在於在2D轉3D過程中，呈現複雜材料的質地如屋頂瓦片、玻璃窗格及平滑的大理石的能力。這使得專業及藝術創作者能以智慧型手機拍攝的影片為素材，產出可用物件整合到其專案中。

Neuralangelo模型以不同角度拍攝的物件2D影片為素材，從中選擇多個不同角度的影格，過程和人類藝術家會以不同角度的畫面創造深度、大小及形狀相似。Neuralangelo一旦決定每個影格的相機位置後，就會產出初步的3D再現影像，再開始加入細節，一如人類雕刻家將素材變成雕像的作業方式。最後成果就是可用於VR應用、數位分身、機器人等的3D物件或場景。

Neuralangelo是Nvidia研究院預定在6月18到22日舉行的電腦視覺與樣式辨識（Computer Vision and Pattern Recognition，CVPR）大會上發表的近30項專案之一。在預定發布的影片中，Nvidia展示Neuralangelo可重建上如米開朗基羅的著名雕刻《大衛》或下到平板拖車的普通物件，它也可以3D重現建築物室內裝潢或室外設計，如Nvidia灣區的辦公室。

除了Neuralangelo外，Nvidia還將展出名為DiffCollage模型，它是一種可擴展的機率模型（probabilistic model），能生成360度全景圖或循環動態圖像等大尺寸圖像。在以標準長寬比的圖片為資料集訓練時，DiffCollage會將這些圖像視為大型拼貼畫的一部分。這種方法訓練出的模型能生成具連續感的大型圖像，但不需同等大小的訓練圖像。這方法也能用以將文字提示轉成一系列影片。

熱門新聞