多智能体连续工作 16 天，验证契约和串行执行是关键

Factory 工程师 Luke 分享多智能体系统 Missions 架构，核心在于解决人的注意力瓶颈。该系统采用编排、工作、验证三角色分工，强调“先定义完成标准”再写代码，通过串行执行降低协调开销，并强制结构化交接以支撑长周期任务。不同角色匹配专用模型，编排逻辑主要依赖提示词，使团队能同时处理的工作流数量从 10 条提升至 30 条。

发布于2026年5月9日 22:53

编辑小创

评论0 条

阅读47

#智能体工程 #提示词工程

Factory 的开发工程师 Luke 分享了他们内部多智能体系统 Missions 的架构设计。架构的技术并不炫，但体现了一个非常朴素的思想，软件工程的瓶颈已经从"模型够不够聪明" 变成了"人的注意力够不够用"。工程师手边堆着 50 个需求，每天只能推几个。模型能力早就不是卡点，人的带宽才是。

五种协作模式，Missions 用了四种

Luke 总结了多智能体协作的五种模式：委派、创建者-验证者、直接通信、协商、广播。Missions 选了其中四种，搭成一个“三角色”架构：

编排者：负责规划，拆任务，决定下一步做什么

工作者：负责写代码，实现功能

验证者：负责检查，确认做到没有

三个角色，各司其职，听起来简单。但魔鬼藏在细节中。

验证契约：写代码之前先定义"完成"

这是我觉得整个设计里最聪明的一环。在写任何代码之前，系统就定义好“完成”意味着什么。不是模糊的“能跑就行”，而是可能包含数百个具体的确认点。为什么这很重要？因为智能体自己写代码自己测试，本质上是在确认自己已经做出的决策，很难抓到自己的 bug。而验证者从不看代码，天然就是对抗性的。就不存在“既当运动员又当裁判”的问题。

串行执行：慢就是快

这个选择挺反直觉。并行跑多个智能体，听起来效率更高对吧？他们试了，结果协调开销把速度提升全吃掉了。智能体之间互相覆盖改动、做重复工作、架构决策打架。所以 Missions 的做法是：功能层面串行，只读操作才并行。表面慢了，但错误率大幅下降。长期任务里，正确性的提高会产生复利，越跑越快。

结构化交接：每个智能体离场必须交班

工作智能体完成功能后，必须填一份交接文档，什么完成了、什么没有、跑了哪些命令、退出码是什么。一旦捕获到错误，系统会自动拉回正轨。他们最长的任务跑了 16 天，比一个完整 sprint 还长。能跑 16 天不崩，靠的就是这种严格的交接纪律。

不同角色用不同模型

这个点也很关键。规划需要慢而审慎的推理，实现需要代码流畅度，验证需要精确的指令遵循。甚至验证者可以用完全不同的模型提供商，避免相同训练数据带来的偏见累积。Luke 他们管这个叫 "机器人耳语术"，理解不同 LLM 怎么交互、在哪里失败、失败如何在连续几天的运行中叠加放大。这不是调参数，这是在对不同模型的性格做编排。

编排逻辑几乎全在提示词里

这意味着每次模型升级，系统都会自动变强，不需要重写代码。通过这种多智能体架构，一个五人团队以前同时处理 10 条工作流，现在能跑 30 条。

AI 工程的 4 步进化：每一步都站在上一步肩上

AI 工程化演进并非替代而是叠加，包含四个关键维度：Prompt engineering 解决单次输出准确性；Context engineering 通过 RAG 等技术优化信息输入；Harness 赋予模型工具与环境以具备行动能力；Loop 则通过迭代验证提升多步执行稳定性。这四个阶段分别对应模型的表达、记忆、手脚与工程纪律，缺一不可。成熟的 AI 产品需同时整合这四层能力，当前行业仍在探索如何平衡 Loop 的自动化与人工验证机制。

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Semgrep 实验显示，开源模型 GLM 5.2 在无脚手架辅助下，IDOR 漏洞检测 F1 达 39%，超越 Claude Code 且单漏洞成本仅 0.17 美元。该模型采用 MoE 架构与 MIT 许可，编码能力接近闭源前沿水平。结果表明模型推理能力提升正缩小脚手架红利，低成本优势或改变安全审计部署策略。尽管结论受限于特定任务，但证实开源模型在安全领域已具备实战竞争力，值得纳入候选池测试。

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本，重写子智能体驱动开发（SDD）方法论，使 AI 编程代码产出速度提升约一倍，token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化，解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性，其核心原则可迁移至各类 AI 编程工作流中，有效提升开发效率与质量。

#智能体工程

阅读全文

互动讨论

评论区

围绕《多智能体连续工作 16 天，验证契约和串行执行是关键》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

多智能体连续工作 16 天，验证契约和串行执行是关键

验证契约：写代码之前先定义"完成"

编排逻辑几乎全在提示词里

相关文章

AI 工程的 4 步进化：每一步都站在上一步肩上

GLM 5.2 裸跑击败 Claude Code：Semgrep 安全基准实验里的意外结果

Superpowers 6.0 把 AI 编程评审重写了一遍：子智能体驱动开发到底怎么运作

评论区