Anthropic launches Claude Sonnet 4.5, claiming to be "the world's best coding model"

華爾街見聞
2025.09.29 21:00
portai
I'm PortAI, I can summarize articles.

Anthropic 於 9 月 29 日推出了 Claude Sonnet 4.5,聲稱其為 “全球最佳編碼模型”。該模型在 SWE-bench Verified 等基準測試中表現出色,能夠生成高質量代碼,識別改進點,並可靠地遵循指令。與舊模型相比,Sonnet 4.5 在特定領域的知識和推理能力上有顯著提升。新模型將作為默認選項,價格與上一代保持一致,付費用户可選擇舊的 Opus 模型。Anthropic 還暗示將推出更多強大的模型。

Anthropic 宣稱推出 “全球最佳編碼模型”。

9 月 29 日,Anthropic 推出了其最新的 AI 模型 Claude Sonnet 4.5。公司稱依據 SWE-bench Verified(一項衡量 AI 系統軟件編碼能力的測試標準)等行業基準,Claude Sonnet 4.5 堪稱 “全球最佳編碼模型”。

該模型能生成更高質量的代碼,更擅長識別代碼改進點,並且能更可靠地遵循指令。這款模型在編碼基準測試中展現出頂尖性能,不僅能構建 “可投入生產使用” 的應用程序,而非僅停留在原型階段。

同時,金融、法律、醫學等領域的專家發現,與包括 Opus 4.1 在內的舊模型相比,Sonnet 4.5 在特定領域的知識和推理能力上表現出顯著提升。

Anthropic 表示,新模型將作為用户的默認選項,且價格與上一代 Sonnet 4 保持一致。不過,付費訂閲用户仍可選擇使用舊的 Opus 模型。

展望未來,Anthropic 已暗示更多模型即將問世。Anthropic 聯合創始人兼首席科學官 Jared Kaplan 透露,更強大的模型正在開發中,其中 “極有可能包括 Opus” 的新版本。他表示:

雖然沒有承諾,但我認為在今年年底前,我們可能還會有一次或兩次發佈。

全面升級的性能與自主性

Claude Sonnet 4.5 不僅在模型尺寸上進行了優化,更在核心能力上實現了全面超越。

Anthropic 表示,根據衡量 AI 系統真實軟件編碼能力的 SWE-bench Verified 評估,該模型已達到業界頂尖水平。

在測試真實計算機操作任務的 OSWorld 基準測試中,Sonnet 4.5 的得分從四個月前的 42.2% 躍升至 61.4%,處於領先地位。

Jared Kaplan 表示:

用户會注意到,這個模型更智能,更像一個同事,在遇到和解決問題時與它合作會很有趣。

Anthropic 首席產品官 Mike Krieger 則表示,儘管 Sonnet 4.5 模型比此前的 Opus 4.1 更小,但在幾乎所有方面都更為智能,能夠為 “真實的、實際的工作” 提供有效支持。

該模型可自主運行長達 30 小時,遠超前代模型的 7 小時,能夠持續專注於複雜的多步驟任務。有網友初步測評後指出比以前模型輸出更好,但有時會缺少其強調的關鍵內容:

對 Claude Sonnet 4.5 的初步想法:速度更快的模型,比以前的模型思考和輸出更好;似乎缺少很多修復和我指出的關鍵事項,沒有正確遵循説明;當它確實修復或創建我所需要的東西時,它達到了高標準。

安全與對齊的顯著躍升

除了性能提升,Anthropic 強調 Claude Sonnet 4.5 是其迄今為止 “最一致的模型”。

公司通過廣泛的安全訓練,顯著改善了模型的行為,減少了如欺騙、權力尋求和 “奉承”(即模型迎合用户預期)等 “令人擔憂的行為”。

此外,新模型對 “提示詞注入攻擊” 具有更強的抵抗力,這種攻擊會誘導模型執行惡意操作,如泄露敏感數據。Kaplan 稱:

這可能是過去一年半以來我們在安全性方面看到的最大飛躍。

該模型在 AI 安全等級 3(ASL-3)的保護下發布,配備了旨在檢測化學、生物、放射性和核(CBRN)武器相關危險內容的分類器,同時公司已將誤報率大幅降低。

賦能開發者的 Agent SDK

伴隨新模型發佈,Anthropic 還推出了一系列產品升級,其中最引人注目的是 Claude Agent SDK。

這是一個供開發者使用的軟件開發工具包,其底層基礎設施與驅動 Anthropic 旗下產品 Claude Code 的基礎設施相同。

該公司表示,此舉將解決構建 AI 代理(agent)時遇到的棘手問題,如長期任務的內存管理、平衡自主性與用户控制的權限系統以及協調子代理等。

通過開放這一工具包,Anthropic 旨在讓開發者能夠為更廣泛任務構建功能強大的定製化 AI 代理。

其他產品更新還包括為 Claude Code 增加的 “檢查點” 功能、新的 VS Code 原生擴展、以及在付費應用中直接集成代碼執行和文件創建(電子表格、幻燈片、文檔)等功能。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。