歸藏(guizang.ai)
@op7418 · 5天前Anthropic 急了,发布了 Claude Opus 4.5
同时终于从原来死贵的 75 美元变成了 25 美元,当然还是比 Gemini 3 Pro 贵不少。
介绍一下详细更新内容:
## 性能表现:编程任务世界第一
SWE-bench Verified 是测试真实软件工程能力的标准 benchmark,Opus 4.5 在这个榜上拿了第一。
Anthropic 内部还做了个有意思的测试:他们让 Opus 4.5 做性能工程师的入职考试(2小时限时),结果模型的分数超过了所有人类候选人。
不只是编程,Opus 4.5 在数学、视觉、推理等各个维度都有提升。在多语言编程 benchmark(SWE-bench Multilingual)上,8 种编程语言里它拿了 7 个第一。
## 价格定位:不是最便宜,但性价比相对高
这是关键信息。我把几家的定价列出来对比一下:
顶级模型价格对比(per million tokens):
- Claude Opus 4.5: $5 / $25
- GPT-5.1: $1.25 / $10
- GPT-5-pro: $15 / $120
- Gemini 3 Pro: $2-4 / $12-18
## 效率大幅提升:更聪明意味着更省钱
Opus 4.5 引入了一个新参数叫 effort(努力程度),你可以根据任务选择不同的思考深度。
在 medium effort 模式下,Opus 4.5 达到了 Sonnet 4.5 的最佳分数,但只用了 24% 的输出 tokens。换句话说,少用了 76% 的 tokens。
即使在 highest effort 模式下,Opus 4.5 的表现超过 Sonnet 4.5 有 4.3 个百分点,同时还少用了 48% 的 tokens。
这说明模型变聪明了:更少的回溯、更少的冗余探索、更精准的推理。对于长期运行的代理任务,这个效率提升会直接转化为成本节省。
12
10
81
55
28






