Google在12月揭露最新多模態模型Gemini 2.0 Flash,也推出由該模型驅動的多模態AI研究代理Project Mariner,可整合Chrome瀏覽器,來分析像素、文字、程式碼、圖片和表單等網頁元素。該代理可完成複雜任務,比如可瀏覽網頁資料、找出特定幾家公司的聯絡資訊,並列出來給使用者。(圖片來源/Google)

自2024年下半年開始,科技龍頭相繼揭露新進展,共通點都聚焦在AI代理。比如,AWS最新揭露3項生成式AI助理功能,能將Windows.NET程式轉換為Linux版本、將VMware工作負載轉換到Amazon EC2雲原生環境,以及將大型主機老舊的COBOL程式轉換為Java。這些新功能,都靠旗下多支AI代理分工執行。

又比如,微軟在11月的Ignite大會中揭露5款生產力AI代理,專門主持會議、口譯、管理專案、訂單處理和提供員工自助服務等,甚至還提供客製化的低程式碼開發工具,來讓使用者打造符合需求的專屬代理。

或是,Google用最新發表的Gemini 2.0 Flash多模態模型,開發出4款AI代理,有專門處理行動裝置的代理、瀏覽器代理,也有專門處理多模態資料的學術用研究代理,以及程式開發代理。

從研究資料整理、專案管理、訂單管理,再到大型主機系統轉換,都成了AI代理新能力。

多模態AI代理將遍地開花

在這些科技龍頭的發布中,多模態AI代理的身影更清晰了。比如Google開宗明義點出,用多模態模型Gemini 2.0 Flash打造的多模態AI代理,可處理語音、音訊、影片、圖像和文字等多元的資料類型,也因此有了多模態的行動裝置和瀏覽器等代理,能即時辨識螢幕中的影片、文字、圖像和音訊,還與Google自己的服務整合,來管理日曆、發送郵件和搜尋查詢等需求。

或是Amazon執行長Andy Jassy在2024年末大會上預告,2025年將推出Nova任意多模態到多模態模型,不論是輸入文字、影片、音訊還是圖片,模型都能任意給出文字、圖片、影片、音訊等類型的答案,可處理的資料範圍更廣了。AWS也計畫用來發展多模態AI代理服務,自動處理更複雜的任務。

就連蘋果也在2024下半年揭露多模態大語言模型MM 1.5的同時,發布MM 1.5-UI模型,不只能理解行動裝置UI圖示,也能懂使用者行為,可望成為iOS幕後自動作業的多模態AI代理,來與使用者對話、代替使用者與裝置互動,完成任務。

多模態AI代理是什麼

科技巨頭大動作擁抱多模態AI代理,意味著多模態代理不只是技術殺手鐧,還是2025年的重要趨勢。

多模態AI代理從AI代理衍生而來,而AI代理專門借助模型的推理能力,將複雜任務拆解為一系列步驟,由不同代理分工執行,能自動使用工具、呼叫函數或即時回應API來完成工作。

而多模態模型更進階,單一模型能處理的更多種類資料,比如文字、圖片、影片和音訊等。因此,比起單純的AI代理,多模態AI代理能理解並推理的資料類型更多,能自主決策、完成任務的範圍也更廣泛,舉凡自動分析長篇影片、找出特定物件並連結通路網站,都不是難題。

多模態AI代理如何影響產業

多模態AI代理開始落地,將如何影響企業?

國際調查研究機構Gartner直言,這類智慧代理不需要明確的輸入,但可以接收指令、建立計畫並自主使用工具來完成任務,產出動態輸出。

Google以Gemini 2.0 Flash打造的多模態AI代理,就是一例。因為,這款模型經多模態訓練,不只能進行文字和圖像輸出任務,還能產出語音回覆,甚至能自動呼叫第三方函數、Google搜尋和程式碼執行等工具,就連即時的多模態API呼叫也沒問題,能即時處理螢幕當下的影片或音訊。

具體實例就是該模型驅動的瀏覽器多模態AI代理Project Mariner,可自動瀏覽網頁、自動點擊分頁並找出所需資訊,比如使用者只需給出特定公司名單、要求代理找出聯絡方式,多模態AI代理就會自動搜尋網頁、瀏覽公司網站並列出聯絡資訊,將繁瑣的人工作業自動化。

又或是,Google雲端在2025 AI產業衝擊文章中舉例,已有零售業者開始使用多模態AI代理來優化客服中心,當民眾打電話到客服中心詢問,語音經轉錄為文字分析後,自動產生更聰明的語音回覆給民眾。

AWS也舉例,金融產業可用多模態代理和工具,來分析文字類、音訊、圖像等資料,再加上情緒分析、投資組合優化和股票查詢等工具串接,來找出金融洞察、進行更準確的投資。

這些例子只是冰山一角。當多模態代理遍地開花,企業可用來自動處理更多更複雜的任務。一如Gartner所預測,2024年企業應用程式使用代理型AI的比例雖然不到1%,但到了2028年,將成長為3成,且15%的日常工作決策都能由智慧代理自主完成。

熱門新聞

Advertisement