Anthropic 发布 Claude 3.7 Sonnet：更强的推理能力、更智能的代码助手

Anthropic 正式推出了他们迄今为止最强大的 AI 模型：Claude 3.7 Sonnet。这不仅是 Claude 系列的一次重大升级，更重要的是，引入了一种全新的 “混合推理模式”，让 AI 既能极速响应，也能进行更深入的思考。与此同时，Anthropic 还发布了一款新的代码助手工具 Claude Code，让开发者可以直接在命令行中调用 AI 进行代码编写和维护。

Claude 3.7 Sonnet：快速响应与深度思考的完美结合

过去，AI 模型通常需要在 “快速响应” 和 “深度推理” 之间做出权衡，要么即时给出答案，要么花时间进行复杂推理。然而，Claude 3.7 Sonnet 彻底改变了这一点，它能根据用户需求调整自己的 “思考时间”，既能在几毫秒内给出快速答案，也能在复杂任务上进行更深入的推理。这种能力在数学、物理、代码编写等领域尤为突出。

对于 API 用户，Claude 3.7 Sonnet 还提供了思考预算（thinking budget）的概念。用户可以设定 AI 进行推理的最大 token 数（Claude 的 token 处理能力最高可达 128K），从而在运行速度和答案质量之间找到最佳平衡。

在价格方面，Claude 3.7 Sonnet 仍然保持与其前代产品相同的收费标准：每百万输入 token $3，每百万输出 token $15，其中包括 AI 在推理过程中消耗的 token。

Claude 3.7 Sonnet 的技术突破：更强的代码理解和更精准的推理

Claude 3.7 Sonnet 在多个技术评测中取得了领先成绩，特别是在代码处理方面表现出色。例如，在SWE-bench Verified（一个衡量 AI 解决真实软件问题能力的测试）和 TAU-bench（评估智能体在复杂任务中的表现）中，它都达到了最先进的水平。

在实际应用中，Claude 3.7 Sonnet 展现了惊人的编程能力。多家技术公司对其进行了早期测试，结果显示：

Cursor 认为 Claude 在处理复杂代码库和使用高级开发工具方面表现最佳。
Cognition 发现 Claude 在代码变更计划和全栈开发方面远胜于其他模型。
Vercel 认可 Claude 在处理复杂自动化任务时的精准度。
Replit 甚至用 Claude 从零构建了完整的 Web 应用和仪表盘，而其他模型往往会卡在某些环节。
Canva 发现 Claude 生成的代码不仅能直接投入生产，而且在设计风格和错误率上都明显优于其他 AI。

除了代码能力，Claude 3.7 Sonnet 还在推理能力、指令执行、多模态处理（即能理解和处理文本、图像等多种信息）等方面有显著提升。甚至在内部测试中，它在宝可梦游戏策略上也超越了所有前代模型，显示出更强的规划和决策能力。

Claude 3.7 Sonnet 在 SWE-bench Verified 测试中达到了最先进的性能。该测试用于评估 AI 模型解决真实软件问题的能力。

Claude 3.7 Sonnet 在 TAU-bench 测试中同样达到了最先进的性能。TAU-bench 是一个评估智能体在复杂现实任务中与用户及工具交互能力的测试框架。

Claude 3.7 Sonnet 在指令执行、通用推理、多模态处理和自主编码等方面表现出色，尤其是在数学和科学领域，扩展思考模式提供了显著提升。除此之外，在传统基准测试之外，它甚至在宝可梦游戏策略测试中超越了所有先前模型。

Claude Code：AI 时代的智能代码助手

为了进一步提升开发者的效率，Anthropic 还推出了 Claude Code，一款 AI 驱动的智能代码助手。目前，该工具仍处于限量研究预览（Limited Research Preview）阶段，但已经展示出了强大的能力。

Claude Code 不仅能阅读和理解代码，还能直接编辑文件、编写测试、运行命令、提交代码到 GitHub，甚至可以在命令行环境中代替开发者执行各种任务。Anthropic 的内部团队发现，Claude Code 能在一次运行中完成原本需要 45 分钟的手动工作，显著降低了开发成本和时间。

在未来几周内，Anthropic 计划持续改进 Claude Code，优化工具调用的可靠性，增加对长时间运行命令的支持，提升代码可视化展示效果，并增强 Claude 对自身能力的理解，以便更智能地辅助开发者。

此外，Claude 3.7 Sonnet 还改进了 claude.ai 对 GitHub 集成，让开发者可以更方便地将 Claude 连接到自己的代码库，进行实时代码协作。

安全性与可靠性：更智能的内容过滤，减少误判

Anthropic 在开发 Claude 3.7 Sonnet 时，特别注重 AI 在安全性和可靠性方面的表现。与前代相比，该版本在减少不必要拒答（即 AI 误以为某个请求是恶意的而拒绝回答）方面提升了 45%。

此外，Anthropic 还发布了系统卡片（System Card），详细介绍了 Claude 3.7 Sonnet 在安全性、鲁棒性（即 AI 在复杂环境下的稳定性）、以及应对提示注入攻击（Prompt Injection Attacks）等潜在风险方面的改进。

展望未来：AI 正在成为真正的智能合作伙伴

Claude 3.7 Sonnet 和 Claude Code 的发布，标志着 AI 在增强人类能力方面迈出了重要一步。Anthropic 认为，未来的 AI 不仅仅是一个工具，而是一个能进行深度推理、独立工作、并与用户紧密协作的智能伙伴。

2024 年，Claude 帮助个人更好地完成当前工作，使每个人都能成为最好的自己。

2025 年，Claude 可为用户独立工作数小时，其能力可媲美专家，从而扩展个人或团队的能力范围。

2027 年，Claude 能够找到突破性的解决方案，解决那些通常需要团队多年才能完成的复杂问题。

参考链接

Claude 3.7 Sonnet and Claude Code

Claude 3.7 Sonnet：快速响应与深度思考的完美结合

Claude 3.7 Sonnet 的技术突破：更强的代码理解和更精准的推理

Claude Code：AI 时代的智能代码助手

安全性与可靠性：更智能的内容过滤，减少误判

展望未来：AI 正在成为真正的智能合作伙伴

参考链接

相关文章

Ploy 从 Claude Opus 4.8 迁移到 GPT-5.6 完整实录

Google 为何要开发 Gemma 4 模型

一个人用 Claude 把 53 万行 Zig 重写成 Rust

评论区