圖片來源: 

Hugging face

Nvidia在上個月發表了多模態大型語言模型NVLM 1.0,宣稱該模型將能與封閉的GPT-4o,或是開源的Llama 3-V 405B與InternVL 2媲美,目前Nvidia已開源NVLM 1.0模型的權重,以及基於Megatron-Core框架的程式碼。

在NVLM 1.0的模型設計上,Nvidia全面比較了基於解碼器架構的模型,以及採用交叉注意力機制的模型,基於它們的優缺點提出了一種全新的架構,以同時提升訓練效率及多模態推論能力。

NVLM 1.0 72B在許多基準測試上就算不是最突出的,但在視覺語言及純文字任務上,都展現出與Llama 3-V、GPT-4o、Claude 3.5 Sonnet及Gemini 1.5 Pro相當的水平,而NVLM 1.0 72B領先的基準測試則有衡量光學字元辨識能力的OCRBench,以及自然圖像理解能力的VQAv2。

Nvidia解釋,Llama 3-V 70B與Llama 3-V 405B在純文字任務上的表現一致,主要是因其LLM主幹在執行多模態訓練期間被凍結,以確保文本任務能力不會因多模態訓練而下滑,但NVLM 1.0 72B的純文本數字及程式碼能力卻明顯優於LLM主幹,在多模態訓練之後的平均準確率增加了4.3%。

NVLM 1.0 72B亦具備優秀的指令遵循能力,此外,由於它結合了OCR、推論、定位、常識、世界知識與程式碼撰寫能力,使得它具備了多元能力,例如它能夠理解abstract vs. paper網路迷因的幽默之處,這個熱門的迷因由兩張圖片組成,一張是山貓但寫著abstract,另一張是家貓但寫著paper,以用來表達摘要看起來很強大,但論文本身卻平凡無奇。

圖片來源/Nvidia

熱門新聞

Advertisement