• 虎科技 - 領先的互聯網科技媒體

編程與智能體開發新突破:Claude Sonnet 4.5攜多項升級登場

   時間:2025-10-01 04:03 來源:快訊作者:沈瑾瑜

人工智能領域迎來重要進展,Anthropic公司正式推出新一代AI模型Claude Sonnet 4.5。該模型在編程能力、計算機操作效率等關鍵指標上表現突出,特別是在處理復雜多步驟任務時展現出持續專注能力,可連續工作超過30小時。

在編程能力評測中,Claude Sonnet 4.5在SWE-bench Verified測試中位居榜首,其真實編程表現獲得專業認可。計算機操作能力評估方面,該模型在OSWorld基準測試中取得61.4%的得分率,較四個月前的版本提升近20個百分點。實際演示顯示,模型可直接在瀏覽器環境中完成網站導航、表單填寫等全流程自動化操作。

定價策略方面,新模型保持與前代相同的收費標準:每百萬輸入token收費3美元(約21.4元人民幣),輸出token收費15美元(約106.8元人民幣)。這一穩定的價格體系為開發者提供了可預期的成本控制。

開發工具鏈迎來重大升級。Claude Code新增檢查點功能,支持自動保存工作進度和即時回滾操作。用戶通過雙擊Esc鍵或輸入/rewind命令,即可快速恢復至歷史版本。該功能特別適用于復雜代碼修改場景,可單獨恢復代碼、對話記錄或兩者組合。

終端界面優化帶來更好的可視化體驗,新增可搜索的指令歷史功能。原生VS Code擴展插件的推出,使開發者能在集成開發環境中直接調用Claude Code,通過專屬側邊欄和行內差異對比功能,實時監控代碼變更過程。

針對企業級開發需求,Claude Agent SDK(原Claude Code SDK)正式開放。該工具包提供核心架構支持,包含情境管理系統和權限框架,新增子智能體與鉤子函數支持。開發者可基于這些組件構建定制化智能體流程,適配特定業務場景。

情境管理能力實現突破性進展。新推出的情境編輯功能可自動清理過期工具調用記錄,在保持對話連貫性的同時優化token使用效率。記憶工具則構建了基于文件的外部存儲系統,允許智能體在多次對話間持續積累知識庫,支持跨會話狀態維護。

性能測試數據顯示,情境管理與記憶工具的協同使用可使復雜任務處理效率提升39%,token消耗降低84%。在100輪網絡搜索測試中,情境編輯功能成功完成原本因情境耗盡而失敗的任務,展現出顯著的技術優勢。

專業領域評估證實,新模型在法律、金融、醫學等垂直領域的知識掌握和推理能力均有顯著提升。安全訓練的強化使模型行為模式得到改善,有效減少了諂媚、欺騙等不良傾向。自動化行為審計顯示,其總體行為失當評分較前代明顯降低。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群