Anthropic 在发布新 Claude 模型前,会找一小批头部客户做极限测试。这种让真实业务场景来“找茬”的机制,比单纯跑分更有参考价值。
Claude 客户拿到新模型的第一件事往往就是跑自动化评估,比较典型的场景是起草复杂法律文件这样的任务。之前让大模型处理这种工作基本属于白日梦,现在借助 Agent 能力,模型可以自主检索信息、综合分析并编辑文档。测试面板上 Agent 的成功率提升了大约 20%,彻底告别了动不动卡壳的状态,能够持续快速准确地输出结果。
大模型发展到现在,核心看点已经转移到了 Agent 在复杂垂直场景里的真实落地。今天模型搞不定的边缘 case 正好指明了下一代模型的优化方向。Anthropic 和客户深度共创的方式,使得双方像同一个团队一样紧密配合,建立起极高的信任壁垒。值得所有产品开发者和团队借鉴。