Claude Opus 4.6 到底升级了什么？真如预期的那么强吗？

Claude Opus 4.6 实现关键跃迁：显著提升复杂任务的持久执行能力，支持长程推理、自我纠错与智能体协作；百万Token上下文稳定性增强，文档检索与多步推理表现突出。虽成本高、非全能，但标志着AI正从聊天工具转向可长期工作的智能体。

发布于2026年2月14日 14:03

编辑零重力瓦力

评论0 条

阅读56

#Claude #智能体 #上下文工程

Claude Opus 4.6 的传言终于尘埃落定。新版模型到底升级了什么？是否有预期的那么强？著名 AI 技术博主 Matthew Berman 是 Opus 4.6 的早期内测用户。看看他对这款最新模型的介绍和评价。

在 Matthew 看来，Opus 4.6 并不是一次小修小补，而是相对 4.5 的一次明显跃迁。最核心的变化只有一句话，就是模型可以更持久地执行复杂任务。这听起有点抽象，但对真正用模型写代码、做研究、处理复杂工作的用户来说，意义很大。模型不再是跑几分钟就偏，而是可以连续工作更长时间，还能在过程中发现并修正自己的错误。而这种能力的提升，正是整个行业正在努力的方向。模型不只是回答问题，而是像一个能长期工作的智能体，可以拆分任务，分配给不同的子智能体，最后再把结果整合回来。Matthew 也提到，不管是 Claude Code、Cursor 还是 Codex，其实大家都在往这个方向走。

Opus 4.6 另一个让人关注的点，是一百万 Token 的上下文窗口。目前这个功能还在测试阶段，但从 K 到 M，已经是一个数量级的提升。更重要的不是能塞多少内容，而是塞进去之后还能不能用。很多模型在长上下文下会出现明显的衰减，信息越多越抓不住重点。根据官方和第三方测试，Opus 4.6 在这方面确实比 4.5 稳定不少，尤其是在从大量文档中检索关键信息，以及基于这些信息继续推理时。

Matthew 展示了不少基准测试结果。从企业文档推理、尽调、生成报告，到代码和终端操作，Opus 4.6 基本都领先 4.5 一个台阶。在一些任务上，提升幅度甚至接近翻倍。对比其他模型，比如 GPT-5.2 或 Gemini 3 Pro，Opus 4.6 在偏知识工作和复杂推理的测试中也占优势。当然，在某些纯工程型任务上，差距没有想象中那么夸张。

一个容易被忽略但很现实的点是成本。Opus 本来就不便宜，4.6 的定价和 4.5 一样，长上下文加上智能体协作，很容易消耗大量 Token。Matthew 在介绍 Agent Teams 这个新功能时也直言，脑子里只剩下一个词，就是 Token。这个功能很强，适合并行研究和复杂审查，但并不适合所有场景。

有意思的是，Opus 4.6 的升级不只体现在模型本身，还体现在它正在进入更多日常工具。Claude 已经能在 Excel 里做更复杂的分析，还开始进入 PowerPoint 这样的场景。这也是Matthew 提到所谓 SaaS 末日的原因之一。如果模型能直接在你每天用的工具里把工作做完，很多传统软件的价值就会被重新评估。

总的来说，Opus 4.6 不完美，也不便宜，但它代表了一种清晰的趋势。模型正在从聪明的聊天工具，变成能长期工作的智能体。这种变化，可能比单次跑分的高低更值得关注。

Claude Opus 4.6 到底升级了什么？真如预期的那么强吗？

相关文章

Google 为何要开发 Gemma 4 模型

AI 工程的 4 步进化：每一步都站在上一步肩上

Claude 自己开机器狗：比人快20 倍，代码量只有十分之一

评论区