Nvidia在GTC大會上,推出使用雲端GPU加持的人工智慧視訊會議套件Maxine,讓用戶能夠以H.264串流影像標準十分之一的頻寬,高效能地傳輸影像,由於Maxine採用雲端原生架構,開發者還能夠利用Kubernetes的擴展性縮放服務規模。另外,Maxine整合先進的視訊、音訊和對話AI功能,提供視線校正(Gaze Correction)、超高解析度、噪音消除和臉部打光等功能。

Nvidia使用人工智慧新技術,大幅度降低傳輸視訊所需要的頻寬,Maxine並不會真的串流整個畫面的像素,而是透過人工智慧技術,分析每個會議參與者的臉部關鍵點,並在另一端進行動畫處理,因此需要傳輸的資料,會比起完整的畫面少上許多。

Nvidia使用在GPU上執行的人工智慧視訊壓縮技術,將視訊頻寬消耗,減少到H.264串流視訊壓縮標準的十分之一,不只減少服務供應商的成本,也讓終端使用者可以用更少的傳輸資料,獲得順暢的視訊會議體驗。

Maxine還應用了生成對抗網路技術,讓視訊會議服務供應商,提供各種功能改善視訊會議體驗,像是自動校正臉部,能夠讓臉看起來正對所有會議參與者,也能校正會議參與者的視線,模擬眼神接觸。這些功能可以讓會議參與者,即便不看著攝影機,也能維持專心與人對話的狀態。

而視訊會議服務供應商,也能添加替身功能,讓會議參與者選擇以動畫人物代替自身影像,即時表現情緒以及聲音。另外,Maxine還能提供人像追蹤功能,即便說話者隨意移動,畫面也會自動跟隨說話者。

Maxine整合了各種Nvidia人工智慧SDK與API,像是可提供對話式人工智慧功能的SDK Jarvis,開發人員可以藉由整合虛擬助理,在視訊會議服務加入語音辨識、語音理解和語音生成功能,讓虛擬助理代為記錄筆記,幫忙配置項目,或是以人聲回答問題,也能夠提供翻譯、字幕和語音轉文字服務,幫助參與者理解會議內容。

除了使用Jarvis,Maxine平臺還利用DeepStream SDK,強化音訊和視訊功能,並且以TensorRT SDK,執行高效能深度學習推理。官方提到,Maxine平臺的人工智慧運算,因為都在雲端處理,終端使用者不需要使用專用硬體,就能獲得這些人工智慧功能。

Maxine的雲端原生基礎架構設計,是以GPU執行Kubernetes容器叢集,提供各式人工智慧微服務,因此開發者能夠擴展服務規模,應付突如其來的大量請求,而且Maxine模組化的設計,開發人員可以選擇需要的人工智慧功能,整合到視訊會議解決方案中。

熱門新聞

Advertisement