Anthropic launches Claude Sonnet 4.5, claiming to be "the world's best coding model"

Anthropic 於 9 月 29 日推出了 Claude Sonnet 4.5，聲稱其為 “全球最佳編碼模型”。該模型在 SWE-bench Verified 等基準測試中表現出色，能夠生成高質量代碼，識別改進點，並可靠地遵循指令。與舊模型相比，Sonnet 4.5 在特定領域的知識和推理能力上有顯著提升。新模型將作為默認選項，價格與上一代保持一致，付費用户可選擇舊的 Opus 模型。Anthropic 還暗示將推出更多強大的模型。

Anthropic 宣稱推出 “全球最佳編碼模型”。

9 月 29 日，Anthropic 推出了其最新的 AI 模型 Claude Sonnet 4.5。公司稱依據 SWE-bench Verified（一項衡量 AI 系統軟件編碼能力的測試標準）等行業基準，Claude Sonnet 4.5 堪稱 “全球最佳編碼模型”。

該模型能生成更高質量的代碼，更擅長識別代碼改進點，並且能更可靠地遵循指令。這款模型在編碼基準測試中展現出頂尖性能，不僅能構建 “可投入生產使用” 的應用程序，而非僅停留在原型階段。

同時，金融、法律、醫學等領域的專家發現，與包括 Opus 4.1 在內的舊模型相比，Sonnet 4.5 在特定領域的知識和推理能力上表現出顯著提升。

Anthropic 表示，新模型將作為用户的默認選項，且價格與上一代 Sonnet 4 保持一致。不過，付費訂閲用户仍可選擇使用舊的 Opus 模型。

展望未來，Anthropic 已暗示更多模型即將問世。Anthropic 聯合創始人兼首席科學官 Jared Kaplan 透露，更強大的模型正在開發中，其中 “極有可能包括 Opus” 的新版本。他表示：

雖然沒有承諾，但我認為在今年年底前，我們可能還會有一次或兩次發佈。

全面升級的性能與自主性

Claude Sonnet 4.5 不僅在模型尺寸上進行了優化，更在核心能力上實現了全面超越。

Anthropic 表示，根據衡量 AI 系統真實軟件編碼能力的 SWE-bench Verified 評估，該模型已達到業界頂尖水平。

在測試真實計算機操作任務的 OSWorld 基準測試中，Sonnet 4.5 的得分從四個月前的 42.2% 躍升至 61.4%，處於領先地位。

Jared Kaplan 表示：

用户會注意到，這個模型更智能，更像一個同事，在遇到和解決問題時與它合作會很有趣。

Anthropic 首席產品官 Mike Krieger 則表示，儘管 Sonnet 4.5 模型比此前的 Opus 4.1 更小，但在幾乎所有方面都更為智能，能夠為 “真實的、實際的工作” 提供有效支持。

該模型可自主運行長達 30 小時，遠超前代模型的 7 小時，能夠持續專注於複雜的多步驟任務。有網友初步測評後指出比以前模型輸出更好，但有時會缺少其強調的關鍵內容：

對 Claude Sonnet 4.5 的初步想法：速度更快的模型，比以前的模型思考和輸出更好；似乎缺少很多修復和我指出的關鍵事項，沒有正確遵循説明；當它確實修復或創建我所需要的東西時，它達到了高標準。

安全與對齊的顯著躍升

除了性能提升，Anthropic 強調 Claude Sonnet 4.5 是其迄今為止 “最一致的模型”。

公司通過廣泛的安全訓練，顯著改善了模型的行為，減少了如欺騙、權力尋求和 “奉承”（即模型迎合用户預期）等 “令人擔憂的行為”。

此外，新模型對 “提示詞注入攻擊” 具有更強的抵抗力，這種攻擊會誘導模型執行惡意操作，如泄露敏感數據。Kaplan 稱：

這可能是過去一年半以來我們在安全性方面看到的最大飛躍。

該模型在 AI 安全等級 3（ASL-3）的保護下發布，配備了旨在檢測化學、生物、放射性和核（CBRN）武器相關危險內容的分類器，同時公司已將誤報率大幅降低。

賦能開發者的 Agent SDK

伴隨新模型發佈，Anthropic 還推出了一系列產品升級，其中最引人注目的是 Claude Agent SDK。

這是一個供開發者使用的軟件開發工具包，其底層基礎設施與驅動 Anthropic 旗下產品 Claude Code 的基礎設施相同。

該公司表示，此舉將解決構建 AI 代理（agent）時遇到的棘手問題，如長期任務的內存管理、平衡自主性與用户控制的權限系統以及協調子代理等。

通過開放這一工具包，Anthropic 旨在讓開發者能夠為更廣泛任務構建功能強大的定製化 AI 代理。

其他產品更新還包括為 Claude Code 增加的 “檢查點” 功能、新的 VS Code 原生擴展、以及在付費應用中直接集成代碼執行和文件創建（電子表格、幻燈片、文檔）等功能。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。