Nvidia開源能與GPT-4o媲美的NVLM 1.0

圖片來源:

Hugging face

Nvidia在上個月發表了多模態大型語言模型NVLM 1.0，宣稱該模型將能與封閉的GPT-4o，或是開源的Llama 3-V 405B與InternVL 2媲美，目前Nvidia已開源NVLM 1.0模型的權重，以及基於Megatron-Core框架的程式碼。

在NVLM 1.0的模型設計上，Nvidia全面比較了基於解碼器架構的模型，以及採用交叉注意力機制的模型，基於它們的優缺點提出了一種全新的架構，以同時提升訓練效率及多模態推論能力。

NVLM 1.0 72B在許多基準測試上就算不是最突出的，但在視覺語言及純文字任務上，都展現出與Llama 3-V、GPT-4o、Claude 3.5 Sonnet及Gemini 1.5 Pro相當的水平，而NVLM 1.0 72B領先的基準測試則有衡量光學字元辨識能力的OCRBench，以及自然圖像理解能力的VQAv2。

Nvidia解釋，Llama 3-V 70B與Llama 3-V 405B在純文字任務上的表現一致，主要是因其LLM主幹在執行多模態訓練期間被凍結，以確保文本任務能力不會因多模態訓練而下滑，但NVLM 1.0 72B的純文本數字及程式碼能力卻明顯優於LLM主幹，在多模態訓練之後的平均準確率增加了4.3%。

NVLM 1.0 72B亦具備優秀的指令遵循能力，此外，由於它結合了OCR、推論、定位、常識、世界知識與程式碼撰寫能力，使得它具備了多元能力，例如它能夠理解abstract vs. paper網路迷因的幽默之處，這個熱門的迷因由兩張圖片組成，一張是山貓但寫著abstract，另一張是家貓但寫著paper，以用來表達摘要看起來很強大，但論文本身卻平凡無奇。

圖片來源／Nvidia

熱門新聞