LangSmith Engine 让 Agent 改进从人肉巡检变成自动闭环

LangChain 推出 LangSmith Engine，将智能体（Agent）的改进流程从手动转变为自动化闭环。针对 Agent 开发中追踪数据庞大、人工排查低效的痛点，LangSmieth Engine 引擎能够自动扫描追踪记录，识别报错、评估失败及用户负反馈等问题，并通过模式匹配聚合同类 Issue 进行优先级排序。基于代码仓库关联，它还能自动生成修复 PR，并创建自定义在线评估器以持续监控问题复发，同时将生产数据纳入离线评估套件防止回归。这一机制实现了“发现问题、修复问题、防止回归”的全自动链路，显著缩短开发周期。

发布于2026年5月22日 13:55

编辑小创

评论0 条

阅读25

#智能体工程

LangChain 发布了 LangSmith Engine，把智能体的改进闭环从手动变成自动化。

做过 Agent 开发的都知道，数据追踪（traces）大家都有，但真正痛苦的是从海量 trace 里找到问题、定位原因、修复、写测试防回归，这套流程全靠人肉，慢且有盲区。LangSmith Engine 就是接管这个过程。

它会自动扫描你的追踪记录，盯住显式报错、在线评估失败、用户负反馈、以及 Agent 没处理好的新场景。发现问题后在整个项目里做模式匹配，把同类问题聚合成一个 issue，按严重程度和频率排优先级。

更有意思的是后面的动作。因为关联了代码仓库，Engine 会直接起草一个 PR，可能是改 prompt，也可能是改代码，你审查合并就行。同时它还会为这个具体问题生成一个自定义在线评估器持续监控，问题复发会自动浮现。最后把相关的生产 trace 加入标注数据集，纳入离线评估套件防回归。

整个链路就是“发现问题 → 修复问题 → 防止回归”的完整自动化闭环。Cogent 和 Campfire 等团队已经在用，解决了影响数千条 trace 的问题。

Agent 开发到了现阶段，瓶颈已经从“能不能跑起来”转移到了“怎么持续提升质量”，谁能把改进循环压缩得更短，谁的 Agent 就能更快变好。LangSmith Engine 本质上是把 SRE 的思路搬到了 Agent 运维里，用自动化观测加闭环修复替代人工巡检。

Google 为何要开发 Gemma 4 模型

谷歌推出开源模型 Gemma 4，旨在解决网络受限地区无法使用前沿 AI 的问题。该模型追求内存占用下的智能最大化，首次具备多模态与智能体能力，支持在无网移动端高效运行复杂任务。目前已在乌干达离线医疗系统及秘鲁原住民语言保护等场景中落地应用。通过将大模型蒸馏至终端设备，Gemma 4 摆脱了对云端算力的依赖，推动去中心化开源生态发展，赋能各社区按需构建专属系统。

AI 工程的 4 步进化：每一步都站在上一步肩上

AI 工程化演进并非替代而是叠加，包含四个关键维度：Prompt engineering 解决单次输出准确性；Context engineering 通过 RAG 等技术优化信息输入；Harness 赋予模型工具与环境以具备行动能力；Loop 则通过迭代验证提升多步执行稳定性。这四个阶段分别对应模型的表达、记忆、手脚与工程纪律，缺一不可。成熟的 AI 产品需同时整合这四层能力，当前行业仍在探索如何平衡 Loop 的自动化与人工验证机制。

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本，重写子智能体驱动开发（SDD）方法论，使 AI 编程代码产出速度提升约一倍，token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化，解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性，其核心原则可迁移至各类 AI 编程工作流中，有效提升开发效率与质量。

#智能体工程

阅读全文

互动讨论

评论区

围绕《LangSmith Engine 让 Agent 改进从人肉巡检变成自动闭环》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

LangSmith Engine 让 Agent 改进从人肉巡检变成自动闭环

相关文章

Google 为何要开发 Gemma 4 模型

AI 工程的 4 步进化：每一步都站在上一步肩上

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

评论区