
微軟研究院發表Magma,這是一款針對多模態人工智慧代理設計的基礎模型。Magma具備視覺與語言理解能力,能夠直接執行UI操作與機器人控制,突破了傳統視覺語言模型僅限於靜態理解的限制。微軟強調,Magma單一模型即可處理數位與物理環境中的互動任務,且不需特定領域微調,就展現出優於現有專用模型的性能。
Magma的核心技術是Set-of-Mark(SoM),透過標記可操作物件,如UI按鈕或機器手臂,讓人工智慧能夠準確理解影像中的互動元素,進而做出適當動作,像是Magma能夠在UI操作中辨識可點擊的按鈕,並執行指令來完成複雜的操作流程。在機器人領域,SoM讓人工智慧能夠判斷環境中的物體位置與特性,控制機械手臂穩定執行物品抓取、移動等任務。
此外,Magma也運用Trace-of-Mark(ToM) 技術,該技術重點在於學習時序動作,藉由標記影像中的移動軌跡,讓人工智慧理解物件在時間軸上的變化。ToM讓Magma能夠預測未來動作,例如判斷機器手臂在操作過程中的最佳移動路徑,或分析影片中人物的行為模式,更精確地規畫下一步動作。相比傳統逐幀預測方法,ToM使用更少的Token,但能捕捉更長時間範圍的變化,提升人工智慧在動態場景中的決策能力,並降低環境雜訊的影響。
在多項基準測試中,Magma表現優於現有模型。在UI操作領域,在Mind2Web和AITW測試中達成高準確率,證明其能夠操作複雜的網頁與行動裝置UI。在機器人操控方面,Magma在WidowX和LIBERO測試超越現有的機器人視覺語言模型OpenVLA,成功執行軟體操控與拾取放置任務,並在已知與未知情境下展現良好的泛化能力。
Magma的強項在於零樣本與少樣本學習能力,能夠直接應用於未見過的環境,而不需要額外微調。測試顯示,Magma在UI操作與機器人任務中,都能夠在零樣本情境下執行完整任務。除了UI操作與機器人應用,Magma在視覺問答、時序推理等任務上也表現出色。在空間推理測試中,其表現超越GPT-4o,微軟提到,空間推理評估對於GPT-4o來說仍然是具有挑戰性的問題,但Magma儘管預訓練資料少得多,卻能更好地回答這類問題。
熱門新聞
2025-02-17
2025-02-17
2025-02-17
2025-02-18
2025-02-18
2025-02-14