早在今年4月GTC的Keynote活動上,Nvidia執行長黃仁勳曾有幾秒鐘替換為逼真的虛擬分身上陣,所以外界十分好奇,這次會不會一樣有虛擬分身出場,在會後一場線上亞太上記者會上,黃仁勳也給出了答案,他說,這場Keynote中出現的場景,都是虛擬的造型,但不包括他自己。

圖片來源: 

Nvidia

試想一下,你到了一家美式速食店,只要對著Kiosk點餐機臺說出你要的餐點,不用輸入就能自動完成點餐到結帳,因為Kiosk上有個AI虛擬助理,不只聽得懂你要點的起司漢堡是什麼口味,還會根據不同客人來推薦套餐或適合加哪些配料,甚至顧客要查詢食物的蛋白質含量,或想要素食漢堡也難不倒它。它還能化身Q版機器人,現身在螢幕中,與人面對面交流及互動,並依據交談內容做出生動的表情和手勢。

 

 

這是在今年秋季GTC大會上,Nvidia展示Kiosk機上實現多AI技術應用與更聰明虛擬化身,Nvidia研發團隊運用電腦視覺、深度互動式對話AI技術Riva以及使用Omniverse平臺來模擬虛擬化身的臉部表情、手勢、身體動作,來提供一種即時對話式機器人應用。不只讓AI有了自己的化身,走進kiosk點餐機,這樣的即時對話式機器人,也能在汽車影音娛樂系統做應用,或是當起跨國線上視訊會議上的主持人,來同步提供多國語言的即時內容翻譯。這樣AI場景應用,不再是出現在少數企業應用,甚至開始進到一般人的生活場景。

 

 

除了AI有自己的虛擬化身,Nvidia執行長黃仁勳自己也有,早在今年4月GTC的Keynote活動上,黃仁勳曾有幾秒鐘替換為逼真的虛擬分身上陣,所以外界十分好奇,這次會不會一樣有虛擬分身出場,在會後一場線上亞太上記者會上,黃仁勳也給出了答案,他說,這場Keynote中出現的場景,都是虛擬的造型,但不包括他自己。

雖然沒有以虛擬黃仁勳登場,在整場主題演講中,他還介紹了另一個迷你版分身,還是一個Q版卡通造型的虛擬化身,能夠代替自己與真人交談、回答各種艱深提問,像是表達對於氣候變遷看法等等,而且舉手投足都將本尊模仿唯妙唯肖,甚至連講話語氣也十分相似。這項技術同樣運用到了多種AI語音、自然語言理解技術、GPU運算和Omniverse平臺加以實現。

在整個發布會中,黃仁勳主要圍繞7大主軸,涵蓋量子運算 、AI推論平臺、speech AI、LLM( large language model)、Omniverse平臺、機器人以及高速網路平臺Quantum-2。

首先,在加速運算上,他提到,加速運算一直都是在處理full stack運算的問題,需要考慮到不同應用、不同產業,而且跨雲端到邊緣,不論是GPU、CPU和DPU ,也不分DGX、HGX、EGX、RTX、AGX等系統,都需要有各種優化的SDK,來提供這些行業或產業做加速運算使用。他說,目前有3百萬名開發者使用Nvidia提供的150個加速運算SDK用於繪圖、AI和機器人。

在這次GTC上,Nvidia更釋出65個新的或更新的SDK, 提供各產業使用,像是物流倉儲搬運機器人用的ReOpt,可優化機器人移動與行駛路線,也有為機器學習慣用的程式語言Python ,推出了cuNumeric來加速其擴充函式庫NumPy,支援更大規模的矩陣運算。還有針對量子運算提供的cuQuantum,可供研究人員進行科學研究。

兩大機器學習開發新框架,加速建立物理ML與超大LLM語言模型

在AI開發框架方面,該公司釋出兩個重要的框架,一個是Modulus機器學習開發框架  它是一個專用於physics-ML models的開發框架,可以讓建立和訓練的ML模型,擁有物理知識和學習能力,以解決物理層面問題。甚至他表示,因為有了物理知識的機器學習,加上GPU加速運算、資料中心等級運算規模,將可以在藥物研發和氣候變遷的變革上,帶來百萬倍發展的加速。

另一個開發框架則是和超大AI模型訓練有關,Nvidia發布一個NeMo Megatron深度學習框架,專用於LLM模型( large language model)訓練使用,因為這樣的框架,還推出一個預設LLM模型NeMo Megatron 530B,讓企業或開發者能使用它訓練出自己的LLM語言模型做應用。該語言模型預設使用多達5,300億個參數,比OpenAI的GPT-3語言模型還要多3倍,並且支援多GPU、多節點分散式架構。

除了提供訓練用的LLM模型,Nvidia還推出一臺 Triton推理伺服器,可供LLM模型推論使用。由於LLM模型是AI理解語言、語意、上下文脈絡很重要的關鍵,黃仁勳也看好LLM模型的發展,將成為未來主流HPC應用。

在企業AI軟體方面,Nvidia原本就有建立相當完整的生態系,涵蓋雲端、本地、邊緣和嵌入式裝置,這次更進一步與資料中心代管服務商Equnix合作,來提供一種企業預安裝和整合服務,稱為LaunchPad,除了可以將這些AI軟體部署在企業資料中心內,也能選擇部署於Equnix機房中,不過目前亞洲只有東京和新加坡能選用。

借助新AI語音引擎,只用30分鐘訓練就能產生新合成語音

Nvidia在同一天推出互動式對話AI引擎Riva,強調只要30分鐘的語音資料訓練,就能產生語音合成模型建立新的AI語音系統,來做為語音助理使用, 最多可以支援7種語言,包括中文、英文、日文、西班牙文、德文、法文、俄文。除於語音,Riva也能提供翻譯、即時字幕顯示功能,也能進行問題回答、歸納和理解說話者意圖等。

由於企業與工業邊緣是下一波AI主戰場,黃仁勳特別以機器人應用為例,強調該公司推出多個邊緣端專用的機器人應用框架,包括電腦視覺平臺Metropolis、新一代醫療儀器設備平臺Clara Holoscan、Isaac機器人軟體開發套件以及Drive車用平臺等。

Nvidia力推新的UCF統一運算框架,加速推動機器人產業AI應用

值得一提的是,黃仁勳在會中也揭露出該公司在Edge AI的布局,主要有3大關鍵技術,分別是統一運算框架( Unified Compute Framework,UCF)、虛擬化身的Maxine機器人平臺、虛擬世界模擬引擎Omniverse。

UCF是一種協助建立機器人AI應用的通用運算框架,企業能夠使用它在機器人上來實現各種AI應用所需的運算,而且利用UCF開發出來的AI應用,可以部署到各種機器人應用環境,不論是資料中心,或是倉庫、工廠邊緣使用的嵌入式機器人系統或裝置上。目前Nvidia在一些機器人新產品上也開始使用UCF框架做為運算框架,例如Clara Holoscan就是一個使用UCF打造的一個軟體定義式醫療儀器設備平臺,除了可以部署在資料中心,也能夠在邊緣端來使用。另一個虛擬化身的Maxine機器人平臺,同樣採用UCF框架搭建,而且可以結合Omniverse搭建的虛擬世界來做應用。黃仁勳表示,未來會有更多技術整合到Maxine中做運用,包括電腦視覺、神經網路繪圖、動畫模擬、AI語音以及對話管理、NLU和推薦等。

 

Nvidia展示了Maxine在智慧零售場景應用,像是建立一個會說話的Kiosk機臺語音助理,不只提供顧客進行語音點餐,還會介紹餐點,回答客人提問,甚至根據每位客人特徵來推薦適合的餐點。該應用結合電腦視覺、互動式對話AI技術Riva以及使用omniverse來模擬的虛擬化身的臉部表情、手勢、身體動作、來提供一種即時對話式機器人應用。

在Omniverse平臺方面,除了在數位分身應用有更多企業採用之外,該公司推出Omniverse Avatar虛擬化身模擬平臺,整合電腦視覺、語音AI、自然語言理解(基於Megatron框架)等技術,讓企業可以在模擬虛擬世界中打造出更聰明的AI虛擬化身,來帶來各種對話式的應用或服務。例如Q版的虛擬黃仁勳就是其中一個應用例子。新推出的Omniverse Replicator模擬框架,則是能產生模擬真實世界所需的物理數據,例如道路表面等,來累積道路環境數據,以加速如自駕車 AI 模型訓練。

最後,他提到,未來將打造一個可以模擬和預測氣候變遷的地球數位分身,並將搭載於新一代超級電腦Earth Two (E-2)上,同時會使用到modulus機器學習模型來產生出符合真實地球物理樣貌,用來加速建立數位分身的地球。


熱門新聞

Advertisement