視訊對象是你還是數位分身？

如果你看過2009年的科幻電影「阿凡達」（Avatar），一定記得那個半身癱瘓的陸戰隊員傑克，透過心靈連接技術，控制了與他基因相匹配的混血納美人，數公尺高，藍色皮膚，透過心靈控制飛行異獸，讓不良於行的傑克能直接翱翔在天際，穿梭在山、雲之間。

混血納美人就像是傑克的分身，雖然長的不太一樣，但是傑克可以控制這具分身的一舉一動，甚至臉部表情，都能反映傑克的各種情緒。現實生活中，並沒有心靈連接技術，也沒有真正的納美人，這都是當年，演員們對著空氣演戲，搭配超強3D動畫才製作出來的電影特效。

但是，透過網路傳遞的數位世界，現在真的有技術，可以打造出一個數位分身，來即時模仿真人臉部表情，甚至可以與他人在視訊平臺上透過眼神互動。這就是今年10月Nvidia第二場GTC大會中，宣布進入公測的Omniverse多人協作設計平臺的3D數位分身功能。

Omniverse使用了皮克斯動畫工作室（Pixar）所發展的3D圖形資料交換框架（Universal Scene Description，USD），再搭配Nvidia本身發展的即時逼真渲染、物理特性、材質、互動工作流程等技術，即時呈現出真實模擬與逼真的細節，來融合實體與虛擬世界。Omniverse平臺也可以整合到市面上主流的3D軟體，來實現多人透過線上協作的場景。

Nvidia希望，這個可促成多人協作與模擬的Omniverse，能夠用來支援機器人、汽車、建築、工程與營造、製造、媒體與娛樂等多種產業的應用。目前也已經有40多家企業先期試用。

Omniverse不只是要創造出一個模擬真實的環境，來設計產品，或模擬產線的生產運作過程，這個平臺還結合了Nvidia對話式AI的軟體應用Jarvis，可以運用影音與語音資料，來設計出更先進的語音交談式AI服務，來創造出更擬真的3D數位分身功能。

因為疫情影響，遠距醫療、遠距學習、在家工作的需求大增，也帶動了企業發展對話式AI服務的需求，在5月的今年第一場GTC大會上，Nvidia創辦人暨執行長黃仁勳就展示了兩種數位分身應用，第一種是AI模型結合語音與臉部的應用，在人頭塑像動畫上，即時配合一段饒舌歌曲變化臉部表情、嘴型，就像這個虛擬人物正在唱歌的模樣。

另一個應用則是氣象資訊對話機器人，黃仁勳不只與這個機器人相互對答天氣資訊，機器人的動畫同樣會依據應答內容而自動改變，如，臉部表情、嘴型說話動作、眼神注視動作，來呈現對不同天氣的態度。

Nvidia利用Omniverse與Jarvis建立了AI驅動的3D數位分身。整合了語音辨識、電腦視覺、自然語言理解、文字轉語音、語音合成，還利用Audio2Face技術自動建立即時的臉部動畫，Omniverse這套即時模擬與協作平臺，就是負責來進行3D內容中，即時圖像渲染的生產與處理。

在10月GTC大會中，Nvidia進一步發布了AI視訊串流平臺Maxine，可以利用AI來感知對話者的臉部重要特徵，僅上傳特徵變化，而在接收器端重新模擬出講話者的臉部動畫（AI Video Compression）給另一方，因此而減少了10倍網路頻寬。

不只重新設計一個數位的「你」給對方看，還能「調整」你的臉部方向，讓你與通話的每個人進行眼神接觸（Face Alignment），通話的每一個人都會感覺到，對方正看著自己的樣子，其實那都是逼真的AI替身動畫。

甚至，AI可以分析你的聲音，製作出擬真的數位分身3D動畫，來代替你來發言，如此一來，就可以為臉部重新打光，看起來更明亮，再搭配上Jarvis對話式AI技術，可以做到即時翻譯，並提供同步出現在畫面底部的隱藏字幕。

黃仁勳強調，有了Jarvis和Maxine，Nvidia能為現今視訊會議的應用方式，帶來全新變革，建構虛擬臨場參與（Virtual Present）的未來開會形式。

以後，你不僅分不清楚，網路聊天室的對方是人還是AI，而且就算在視訊會議上面對面看到了對方的臉，你可能也會疑惑，到底是真的他，還是數位分身的它？

視訊對象是你還是數位分身？

專欄作者

熱門新聞