Anthropic发布Claude Sonnet 5:性能接近Opus 4.8,价格更低且安全有改善

Anthropic发布Claude Sonnet 5:性能接近Opus 4.8,价格更低且安全有改善 【突发】Anthropic发布全新模型Claude Sonnet 5刚刚Anthropic正式发布了全新的模型Claude Sonnet 5称其为「迄今为止最具Agent属性的Sonnet模型」。它可以制定计划使用浏览器、终端等工具并以数月前还需要更大、更昂贵模型才能达到的水平自主运行。【性能提升】Sonnet 5多项性能显著提升Sonnet 5在推理、工具使用、编程和知识工作方面相比Sonnet 4.6性能有显著提升更接近Opus 4.8但价格更低。官方表示对于开发者来说AI Agent时代正是从Sonnet级模型开始的Claude Sonnet 3.5、3.6和3.7是最早在编程和工具使用上展现出亮眼能力的一批模型。不过最近一段时间Agent能力最明显的提升主要出现在Opus级模型上。而Claude Sonnet 5明显缩小了这一差距它的性能已经接近Opus 4.8但价格更低。【对比评测】Sonnet 5成本 - 性能优势明显具体对比显示Sonnet 5橙色线相比Sonnet 4.6灰色线具有明确的性能提升且覆盖的成本 - 性能选项范围比Opus 4.8黄色线更广。在中等努力程度下Sonnet 5显著提升了成本效率在更高努力程度下其性能在某些任务上可媲美Opus 4.8。在Sonnet 5和Opus 4.8之间用户可根据具体任务灵活调整努力程度找到最适合自身需求的成本与性能平衡点。此前最好的Sonnet模型Sonnet 4.6远不及Opus 4.8Sonnet 5提供了比Sonnet 4.6更广泛的成本 - 性能选项在某些情况下可达到Opus 4.8的能力水平。Sonnet 5定价为输入$3 / 百万token输出$15 / 百万token通过8月31日前的尝鲜价输入$2 / 百万token、输出$10 / 百万token实际成本更低。Opus 4.8的定价为输入$5 / 百万token、输出$25 / 百万token。【用户反馈】Sonnet 5更具自主智能体能力来自Anthropic早期访问合作伙伴的反馈始终一致Sonnet 5比其前代模型更具自主智能体能力。测试者描述说它能完成复杂任务而之前的Sonnet模型会在这些任务上中途止步它会主动检查自己的输出无需明确提示而且它以极具吸引力的价格完成所有这些智能体工作。【安全评估】Sonnet 5安全有所改善但仍有不足Anthropic的部署前安全评估发现Sonnet 5整体上相比Sonnet 4.6有所改善。在自主智能体安全性方面该模型在拒绝恶意请求和抵御提示注入攻击中的劫持尝试方面表现更好。模型的幻觉率和谄媚行为率均低于Sonnet 4.6。在自动化行为审计中Sonnet 5得分更低即更安全。不过与能力更强的Opus 4.8和Claude Mythos Preview相比它在该评估中确实表现出略高的失当行为率。Sonnet 5可以执行一些常规、无害的网络任务但在评估潜在危险网络技能时其表现显著逊于Opus 4.8和Mythos 5等模型。由于Sonnet 5在这些任务上比其前代略有增强Anthropic已默认启用了网络安全护栏。Anthropic对Sonnet 5在多项安全和能力评估上的完整评估报告详见 《Claude Sonnet 5系统卡》。【定价策略】Sonnet 5限时优惠首发今天起Claude Sonnet 5已在所有渠道正式可用。为庆祝发布Anthropic推出限时优惠首发价即日起至2026年8月31日输入为$2 / 百万token输出为$10 / 百万token之后恢复标准定价输入$3 / 百万token输出$15 / 百万token。与此同时他们宣布全面上调Chat、Cowork、Claude Code以及Claude平台的速率限制以适配更高「努力程度」模式带来的更大token消耗。【注意事项】【网络安全验证】Sonnet 5已纳入Anthropic的「网络安全验证计划」该计划现已在Claude原生平台、AWS上的Claude平台、Microsoft Foundry中的Claude托管于Azure和Anthropic开放使用Google Vertex上的Claude也将很快支持。已加入该计划的组织在Sonnet 5上自动获得同等访问权限无需重新申请。如果网络安全工作需要更少的安全护栏限制Anthropic推荐使用Claude Opus 4.8。【tokenizer更新与定价说明】Sonnet 5是Sonnet 4.6的升级版但采用了全新的tokenizer以优化文本处理性能。带来的变化是相同输入内容现在会映射为更多token具体增幅约为1.0 - 1.35倍视内容类型而定。为此Anthropic设定的尝鲜价正是为了让用户过渡到Sonnet 5时整体使用成本大致保持不变。【速率限制调整说明】早在2026年4月26日Anthropic已针对Sonnet和Haiku模型在所有使用层级上调高了速率限制并将原生Claude平台的套餐简化为三个层级Start、Build、Scale。本次更新Anthropic进一步上调了Chat、Cowork、Claude Code及Claude平台的速率限制以配合更高「努力程度」模式带来的更大token消耗。可以在Claude Console中查看当前层级和具体限制或查阅文档获取更多详情。【评测分数更正说明补充】Humanity’s Last Exam方面Anthropic更新了该评测的评分模型并据此将Sonnet 4.6的分数修正为34.6%无工具和46.8%有工具。OSWorld - Verified方面Anthropic优化了该评测的运行方式以更真实地反映模型在实际场景中的表现并将Sonnet 4.6的分数修正为78.5%。【开发者反馈】Sonnet 5优缺点并存Claude Sonnet 5一经发布大家就开始上手测评。网友Nicolas Bustamante表示自己很喜欢Sonnet 5的一点在于它速度很快而且针对Agent做了优化「我最喜欢的例子是浏览器使用又快又安全。」根据system card结果表明浏览器使用场景下的提示注入攻击成功率Sonnet 5只有0.93%而Opus 4.8是31.5%Sonnet 4.6是50.7%。不过也有网友表示「太贵了。」据Artificial Analysis分析在Intelligence Index上Claude Sonnet 5的运行成本为每项任务2.29美元相比Sonnet 4.6增加约2倍也比Claude Opus 4.8高出约15%。这一成本上升完全由token使用量增加所驱动使Claude Sonnet 5成为运行成本最高的模型之一仅次于Claude Fable 5。那么你呢觉得新模型如何欢迎评论区留言、交流