Anthropic發表Claude 3.5 Sonnet，評測凌駕Claude 3 Opus與GPT-4o

圖片來源:

Anthropic

OpenAI主要競爭對手之一Anthropic本周發表了Claude 3.5 Sonnet，Sonnet為Claude的中階模型，但Anthropic宣稱它的性能與效率已超越Claude 3.0的高階模型Opus，在大多數的評測上亦凌駕了OpenAI於今年5月推出的GPT-4o，此外，Anthropic也在網頁版的Claude.ai預覽一項新的Artifacts功能，可於個別的工作空間即時呈現所有的生成結果。

Claude 3.5 Sonnet的執行速度是Claude 3 Opus的兩倍，Anthropic內部以自然語言描述要求不同模型修補開源程式碼臭蟲或新增功能，發現Claude 3.5 Sonnet解決了64%的問題，超越了Claude 3 Opus的38%。在提供指示與相關工具之後，Claude 3.5 Sonnet得以獨立撰寫、編輯與執行程式碼，展現了複雜的推論及故障排除能力，可輕鬆處理程式碼的轉換，令它能夠更有效率地更新老舊應用程式並遷移程式碼庫。

此外，Claude 3.5 Sonnet不僅在所有基準評測上都凌駕Claude 3 Opus，它在GPQA、HumanEval、MGSM、DROP、BIG-Bench-Hard或是與視覺有關的MathVista、AI2D、Relaxed accuracy及ANLS score等評測上也超越了GPT-4o，只於MMLU、MATH及MMMU上略遜GPT-4o。

Anthropic亦開始於Claude.ai上預覽新的Artifacts功能，在啟用Artifacts之後，當使用者與Claude模型對話時，旁邊會出現一個新視窗，同步呈現模型所生成的所有內容，不管是程式碼、文字檔案或是網站設計。該功能替使用者創造了一個動態的工作空間，允許使用者即時檢視、編輯及建置源自Claude模型的內容，以無縫將AI生成的內容整合到使用者的專案或工作流程之中。

Anthropic指出，Artifacts功能意味著Claude將從對話式AI轉至協作工作環境，且很快就會支援團隊協作，最終令整個組織能夠在一個共用空間中集中其知識、文件，或是正在進行中的任務，讓Claude扮演一個在使用者有需要時就可出現的團隊成員。

一般使用者透過Claude.ai及Claude iOS程式就可免費存取Claude 3.5 Sonnet，至於 Claude Pro與Claude Team 方案的訂閱用戶則有更高速率的存取權限。開發者亦可透過Anthropic API、Amazon Bedrock及Google Cloud的Vertex AI存取該模型，輸入100萬Token的費用為3美元，輸出100萬個Token的費用為15美元，且支援20萬個Token的脈絡長度。

Anthropic表示，該公司的目標是每幾個月就會大幅改善智慧、速度與成本之間的權衡曲線，今年也會發表低階的Claude 3.5 Haiku 與高階的Claude 3.5 Opus。且除了下一代模型之外，該公司亦正在建置新模型來支援企業的應用，包括整合企業應用程式；亦正在探索諸如Memory等功能，以讓Claude能夠記憶使用者的偏好與交流紀錄，以讓它更個人化及更有效率。

圖片來源／Anthropic

熱門新聞