Amazon發表瀏覽器AI代理Nova Act

圖片來源:

Amazon

Amazon今日（4/1）發表可於網頁瀏覽器中執行各種任務的Amazon Nova Act模型，以及供開發人員存取該模型的Amazon Nova Act SDK預覽版。

相較於其它模型，Nova Act強調的是可靠度，專注於可被組合成更複雜工作流程的可靠基礎構件。Amazon表示，許多代理人的基準測試是用來衡量高階任務的模型效能，其中，最先進的模型在完成網頁瀏覽器任務時可實現30%~60%的準確率，然而，代理人必須可靠才能真正發揮作用，因此Amazon的內部評估鎖定的是讓那些其它模型無法實現的功能達到90%以上的分數，例如日期選擇、下拉式功能表與彈出窗口等。

Amazon比較了Nova Act、Claude 3.7 Sonnet與OpenAI CUA在與網頁文字互動（ScreenSpot Web Text）、與網頁上的圖示互動（ScreenSpot Web Icon），以及與網頁上各種互動元素互動（GroundUI Web）的能力，顯示它在前兩項分別以0.939及0.879的成績超越其它兩個模型，GroundUI Web也有0.805的成績，微幅落後競爭者。

注重可靠性的結果是一旦一切正常運轉，就不必觀察它執行每一個操作，將代理人變成能夠整合到產品中的API，甚至可依據所需的任何時間表異步執行。

Nova Act SDK則讓開發人員能夠將複雜的工作流程分解為可靠的原子命令，不管是搜尋、結帳，抑或是回答有關螢幕的問題，也能在需要時替這些命令添增更詳細的說明，呼叫各種API，或是交替使用Playwright直接操作瀏覽器來強化可靠性，並可嵌入Python程式碼來進行測試、斷點，或是用於平行處理的執行緒池。

因此，透過該SDK，開發人員即能建立可於瀏覽器中完成任務的代理程式，像是於內部系統中提交外出辦公的請求，空出日曆以顯示即將外出辦公，以及發送外出辦公的電子郵件。

Amazon表示，儘管Nova Act仍處於早期階段，但他們已對該模型的跨環境理解能力感到訝異，例如雖然沒有任何電玩經驗，但它似乎也能在網頁遊戲等新環境中成功運作；目前該公司已在Alexa+中採用Nova Act，當所整合的服務無法提供所有必要API時，Nova Act可自動瀏覽網路，代表使用者完成任務。

對Nova Act功能有興趣的開發人員，可透過Amazon新成立的Nova入口網站取得Nova Act SDK研究預覽版。圖片來源／Amazon

熱門新聞