圖片來源: 

OpenAI

OpenAI昨(23)日公布自有代理人Operator,可代用戶上網搜尋、打字及執行其他任務。Operator目前以研究預覽版形式提供給美國的Pro付費用戶試用,未來會逐步推向其他國家及方案。

Operator網頁已經上線。Operator具有自己的瀏覽器,若用戶需要它查詢或操作網頁,它可以和人類一樣讀取網頁並在網頁上打字、點擊或下拉卷軸。它會代用戶搜尋、提供建議,並在用戶同意下代為執行如下單等任務。

Operator網頁正上方有一行ChatGPT的提示輸入列,下方有多項類別標籤,包括餐飲、快遞/外送、旅遊、購物等,每類標籤提供建議的網頁以及預設的提示。例如OpenTable下預設了預訂餐廳座位、或請它建議提供4.5星以上評價的餐廳等。用戶也可以直接輸入搜尋提示。根據執行長Sam Altman和其他OpenAI員工示範Operator的影片,Operator在OpenTable上打字搜尋到數家符合要求餐廳、回覆用戶請求決定,並詢問用戶是否代為訂位。

目前Operator為研究預覽版,今天起已提供月費200美元的Pro方案美國用戶使用。OpenAI表示這項服務會再推向其他地區,也會提供給Plus、Teams及Enterprise方案用戶。而歐盟地區也必須再等等。

技術上,Operator使用的是名為使用電腦的代理人(Computer-Using Agent,CUA)。CUA結合GPT-4o的視覺能力及以強化式學習(reinforcement learning)訓練出的進階推理能力。CUA旨在和螢幕上的圖形化使用者介面(graphical user interfaces,GUI)如按鍵、選單和文字欄位互動。

Operator的「觀看」能力來自螢幕擷圖,其螢幕互動能力是滑鼠和鍵盤允許的行為,因而它不需使用API整合就能在網頁上執行任務。如果Operator遭遇困難或犯錯,它會運用推理能力自行修正。而當卡住需要協助時,就會將控制權丟回給用戶。

OpenAI表示CUA雖然還在開發階段,但在標竿測試如WebArena及WebYoyager中,瀏覽器使用表現超過之前的SOTA(state of the art)模型。此外CUA在OSWorld標竿測試,也展現出比之前SOTA模型更好的電腦使用能力。

Operator使用很容易,用戶可以在提示鍵中輸入自然語言描述想做的任務。在任何網站上,用戶都可加入客製指令建立個人化作業流程,像是Booking.com上設定偏好的航空公司,也能在特定網頁上儲存提示以加速日後使用,例如在eBay上添購日常用品。Operator還能像瀏覽器一樣多工作業,可允許另起對話執行新的任務,像是一邊訂房、一邊訂機票。不過OpenAI強調在任何作業上,用戶都可隨時接手主控權。

目前OpenAI和多家電商或線上服務業者合作,包括DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber、eBay、路透社等,以提供更流暢的自動化服務。

另一方面,OpenAI強調安全與隱私。除了加入護欄確保模型不被濫用,OpenAI為Operator加入行為限制以確保隱私。例如在需要登入、支付資訊或解決CAPTCHA時,會主動要求用戶自行輸入付款資訊或密碼。在完成重要任務,如送出email或下單前,Operator要求用戶許可。尤其在高度敏感站像是電子郵件或銀行網站,它會要求用戶檢查。它也會拒絕高度敏感任務,例如轉帳或投遞履歷。

OpenAI允許用戶在ChatGPT設定中關閉「為所有人改進模型」,以防止Operator對話被用於訓練模型。用戶也可以在Operator設定的「隱私」頁中,刪除所有上網資料及登出網站。不過Techcrunch報導,即使用戶刪除,資料還是會在系統內保存90天,超過ChatGPT的30天。

熱門新聞

Advertisement