微軟發表Magma多模態AI代理基礎模型，單一模型就具UI與機器人操作能力

微軟研究院發表Magma，這是一款針對多模態人工智慧代理設計的基礎模型。Magma具備視覺與語言理解能力，能夠直接執行UI操作與機器人控制，突破了傳統視覺語言模型僅限於靜態理解的限制。微軟強調，Magma單一模型即可處理數位與物理環境中的互動任務，且不需特定領域微調，就展現出優於現有專用模型的性能。

Magma的核心技術是Set-of-Mark（SoM），透過標記可操作物件，如UI按鈕或機器手臂，讓人工智慧能夠準確理解影像中的互動元素，進而做出適當動作，像是Magma能夠在UI操作中辨識可點擊的按鈕，並執行指令來完成複雜的操作流程。在機器人領域，SoM讓人工智慧能夠判斷環境中的物體位置與特性，控制機械手臂穩定執行物品抓取、移動等任務。

此外，Magma也運用Trace-of-Mark（ToM）技術，該技術重點在於學習時序動作，藉由標記影像中的移動軌跡，讓人工智慧理解物件在時間軸上的變化。ToM讓Magma能夠預測未來動作，例如判斷機器手臂在操作過程中的最佳移動路徑，或分析影片中人物的行為模式，更精確地規畫下一步動作。相比傳統逐幀預測方法，ToM使用更少的Token，但能捕捉更長時間範圍的變化，提升人工智慧在動態場景中的決策能力，並降低環境雜訊的影響。

在多項基準測試中，Magma表現優於現有模型。在UI操作領域，在Mind2Web和AITW測試中達成高準確率，證明其能夠操作複雜的網頁與行動裝置UI。在機器人操控方面，Magma在WidowX和LIBERO測試超越現有的機器人視覺語言模型OpenVLA，成功執行軟體操控與拾取放置任務，並在已知與未知情境下展現良好的泛化能力。

Magma的強項在於零樣本與少樣本學習能力，能夠直接應用於未見過的環境，而不需要額外微調。測試顯示，Magma在UI操作與機器人任務中，都能夠在零樣本情境下執行完整任務。除了UI操作與機器人應用，Magma在視覺問答、時序推理等任務上也表現出色。在空間推理測試中，其表現超越GPT-4o，微軟提到，空間推理評估對於GPT-4o來說仍然是具有挑戰性的問題，但Magma儘管預訓練資料少得多，卻能更好地回答這類問題。

熱門新聞