从“调工具”到“搞架构”:为什么 2026 年 Prompt 工程师开始恶补系统设计?

AI 应用从 Demo 到上线常因架构缺陷而失败,单纯优化 Prompt 已无法解决多步推理与复杂协调问题。文章提出了 Goal-Oriented Agents 的迭代循环机制,并详解生产级四层架构:规划层分离意图与行动,委托层通过子 Agent 隔离上下文,持久化层外接记忆突破窗口限制,综合层统一输出结果。该方案将开发重心从提示词工程转向系统设计,是构建可扩展、高可靠 AI 系统的核心方向。

发布于2026年5月3日 13:30
编辑零重力瓦力
评论0
阅读36

一个让很多团队头痛的事实:Demo 惊艳,上线就崩。

AI 应用开发的第一波浪潮里,大家都在卷 Prompt。但如今 prompt 写得好不好,不是决定性因素,架构才是!

最近读了一篇讲 Goal-Oriented Agents 的文章(Mamdouh Alenezi,arXiv 2026),里面有个观点很有意思:大多数 AI Agent 项目失败,不是模型不够强,是架构设计从一开始就有问题。

为什么单 Pass 模型注定失败

早期 LLM 应用是函数式的:Prompt 进,Answer 出。任务能塞进一次调用、一个上下文窗口,就能运行。但一旦涉及多步推理、重试机制、或跨类型工作的协调,单 Pass 模式立刻爆掉。

以客服 Agent 为例。Demo 阶段,用户扔一个问题,Agent 从知识库找个答案。但切到真实工作流,例如 200 张工单,要查订单历史、要核对退货政策、要交叉引用保修条款、要起草个性化解决方案。Agent 在第 50 张工单的时候,就开始混淆客户信息,退货政策套用也会错误,发了一堆自信但离谱的解决方案。

根源不是 Prompt 不够好,是 Agent 被做成了 Chain(链条)!一条从输入到输出的直线,无记忆、无适应、无重试能力。Chain 是无状态的管道,处理一次就丢掉所有中间状态。它不知道前面做了什么,遇到错误不能改道,把每个请求都当作第一次认识这个世界。

Goal-Oriented Agent(目标导向 Agent)的思路完全不同。它是一个有状态的系统,环形运转而非直线穿过。

Plan → Execute → Observe → Update → Repeat

核心是这个迭代推理循环。Agent 先把目标拆成任务列表,执行第一步,观察结果(成了吗?有意外吗?),根据学到的东西更新计划,然后再进入下一步。直到目标达成。

没有这个循环,Agent 会试图在一次调用里处理 200 张工单,从第 50 张开始出错。有这个循环,每一步的输出都扎根于前一步的结果,而不是凭空生成。

四层架构:生产级 Agent 的收敛方向

工程团队把单 Pass Agent 重构为可扩展系统时,最终的架构形态出奇一致。无论用哪个框架,基本用的都是四层结构:

第一层:Planning(规划)

目标是“把所有工单都处理好”,但“怎么处理”不是一开始就确定的。Planning 层做的是把意图和行动分离。先搞清楚要做什么,再决定怎么做。

Agent 创建任务列表:工单按类型分类,查询客户账户,核对订单历史,匹配相关政策,起草解决方案,标记需要升级的案例。这个列表不是固定的。当 Agent 发现某类工单出现了新的情况,会把新的步骤加进去。当它意识到几个工单来自同一客户且问题相关,会合并处理。

没有 Planning 层,Agent 在复杂任务上会跑偏,模型丢掉对原始需求的跟踪,或者过早锁定一个后来被证明错误的方案。Planning 层让 Agent 的意图变得可见且可修改。

第二层:Delegation(委托)

让一个模型同时做账户查询、退货政策解读、客户回复起草,会把单一上下文塞满不兼容的角色,三件事的质量一起下降。

Goal-Oriented Agent 通过委托解决这个问题。一个 Orchestrator(主 Agent)持有总体目标,把有边界的任务分配给专门的子 Agent。一个处理账户查询和订单历史,一个解读政策并判断适用性,第三个起草给客户的回复。

每个子 Agent 在独立隔离的上下文中运行,只专注自己的任务。只有最终输出流回 Orchestrator。这让主流程保持干净,每个子任务保持专注。

这里有个细节值得注意:子 Agent 并行运行时,如果不共享上下文,可能做出互相矛盾的决策。对于需要紧密协调的任务,顺序执行反而比并行化更可靠。

第三层:Persistence(持久化)

处理第 200 张工单时,Agent 需要记得第 1 张是怎么处理的。但没有任何模型的上下文窗口能同时装下 200 个客户的账户信息、订单历史、政策决策、解决方案草稿。

Persistence 层解决这个问题的方式是给 Agent 外接记忆。每处理完一张工单,Agent 把结果写入外部存储:客户明细、订单查询记录、政策判断、方案草稿。下一次需要用到之前的结果时,不是把所有历史塞进上下文,而是只读取相关的部分。

这让工作的复杂度与模型的记忆能力解耦。任务可以扩展到 200 张、2000 张工单,而不会让上下文窗口成为瓶颈。在客服场景里,Agent 处理 200 张工单和處理 1 张工单的准确率相同,因为每个结果都存在外部而不是被压缩进越来越满的 prompt。

第四层:Synthesis(综合)

处理完所有工单后,最终输出不是 200 封各自为战的回复邮件,而是一个已解决的队列!政策应用一致,需要升级的案例被标记,有换班总结报告。

这是 Synthesis 层:合并并行子结果为一个统一交付物。Map 阶段,各子 Agent 独立完成有边界的任务,并行或隔离运行,产生各自的输出。Reduce 阶段,Orchestrator 读取所有存储的子输出,解决相互间的矛盾,识别跨工单的模式,最终组装出完整的队列和摘要报告。

这个 Map-Reduce 模式在数据处理领域很常见,直接迁移到 Agent 工作流同样有效。最终输出质量取决于四层是否协同工作?Planning 确保没有遗漏,Delegation 确保每块工作被正确处理,Persistence 确保没有遗忘,Synthesis 确保各部分形成一个有机整体。

这场迁移还没结束

从 Chain 到 Loop,从单 Pass 到四层架构,Prompt 工程师的角色在悄然改变。

不再只是“怎么问”,而是“怎么组织”。系统设计能力、任务分解能力、结果整合能力!这些以前属于软件架构师的能力,正在变成 AI Agent 开发者的核心技能。

Prompt 写得好是门槛,架构设计得好才是护城河。

相关文章

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
智能体工程
2026年6月2日
0 条评论
零重力瓦力

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。

#智能体#智能体工程
阅读全文
别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节
智能体工程
2026年6月1日
0 条评论
零重力瓦力

别被多智能体的概念吓住,真正跑通工作流的人都在关注这些细节

多智能体协作在创意交付端仍存短板,但在结构化任务中价值显著。实测显示,Super Agent 生成幻灯片虽快但排版难控,而自动化销售线索处理及编程辅助等场景因规则明确、流程可定义,能实现高效落地。多智能体的核心竞争力在于清晰定义职责边界、输出格式与异常处理,而非概念本身。建议优先梳理任务结构化程度与人机分工,注重参数配置等实操细节,避免盲目追求平台概念,以构建真正可用的生产力工作流。

#智能体工程#智能体
阅读全文
OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通
智能体工程
2026年5月28日
0 条评论
零重力瓦力

OpenClaw 遇到对手了:Hermes Agent 的自我进化路线到底能不能跑通

开源个人 Agent 领域呈现 OpenClaw 与 Hermes Agent 的路线之争。OpenClaw 主打全平台覆盖与可视化协作,强调交互广度;Hermes Agent 则聚焦自我进化与跨会话用户建模,追求认知深度,并提供一键迁移工具争夺用户。尽管 Hermes v0.14.0 已具备生产级能力,但其自我进化机制仍面临技能质量、记忆膨胀及 token 效率等挑战。这场竞争标志着个人 Agent 赛道已从功能验证迈向设计哲学比拼的新阶段。

#Hermes Agent#OpenClaw#智能体工程
阅读全文
互动讨论

评论区

围绕《从“调工具”到“搞架构”:为什么 2026 年 Prompt 工程师开始恶补系统设计?》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。