圖片來源: 

Amazon

Amazon今日(4/1)發表可於網頁瀏覽器中執行各種任務的Amazon Nova Act模型,以及供開發人員存取該模型的Amazon Nova Act SDK預覽版。

相較於其它模型,Nova Act強調的是可靠度,專注於可被組合成更複雜工作流程的可靠基礎構件。Amazon表示,許多代理人的基準測試是用來衡量高階任務的模型效能,其中,最先進的模型在完成網頁瀏覽器任務時可實現30%~60%的準確率,然而,代理人必須可靠才能真正發揮作用,因此Amazon的內部評估鎖定的是讓那些其它模型無法實現的功能達到90%以上的分數,例如日期選擇、下拉式功能表與彈出窗口等。

Amazon比較了Nova Act、Claude 3.7 Sonnet與OpenAI CUA在與網頁文字互動(ScreenSpot Web Text)、與網頁上的圖示互動(ScreenSpot Web Icon),以及與網頁上各種互動元素互動(GroundUI Web)的能力,顯示它在前兩項分別以0.939及0.879的成績超越其它兩個模型,GroundUI Web也有0.805的成績,微幅落後競爭者。

注重可靠性的結果是一旦一切正常運轉,就不必觀察它執行每一個操作,將代理人變成能夠整合到產品中的API,甚至可依據所需的任何時間表異步執行。

Nova Act SDK則讓開發人員能夠將複雜的工作流程分解為可靠的原子命令,不管是搜尋、結帳,抑或是回答有關螢幕的問題,也能在需要時替這些命令添增更詳細的說明,呼叫各種API,或是交替使用Playwright直接操作瀏覽器來強化可靠性,並可嵌入Python程式碼來進行測試、斷點,或是用於平行處理的執行緒池。

因此,透過該SDK,開發人員即能建立可於瀏覽器中完成任務的代理程式,像是於內部系統中提交外出辦公的請求,空出日曆以顯示即將外出辦公,以及發送外出辦公的電子郵件。

Amazon表示,儘管Nova Act仍處於早期階段,但他們已對該模型的跨環境理解能力感到訝異,例如雖然沒有任何電玩經驗,但它似乎也能在網頁遊戲等新環境中成功運作;目前該公司已在Alexa+中採用Nova Act,當所整合的服務無法提供所有必要API時,Nova Act可自動瀏覽網路,代表使用者完成任務。

對Nova Act功能有興趣的開發人員,可透過Amazon新成立的Nova入口網站取得Nova Act SDK研究預覽版。圖片來源/Amazon

熱門新聞

Advertisement