AI 不够聪明？也许只是没有给对上下文！

AI 输出质量差往往不是因为模型不行，而是缺乏有效的上下文。近期备受关注的 “上下文工程” 正是解决这一瓶颈。通过数据打通、知识层构建、精准检索和运行时治理，让 AI 获取与任务真正相关的信息。在检索环节，相比基础 RAG，智能体式 RAG 能迭代获取数据，GraphRAG 靠实体关系导航提升精度，上下文压缩则过滤噪音最大化信号。当模型能力边际放缓，上下文工程的质量将成为拉开 AI 应用差距的关键。

发布于2026年5月13日 11:29

编辑小创

评论0 条

阅读19

#RAG #上下文工程 #智能体工程

很多人觉得AI不好使，第一反应是模型不行，但真正卡脖子的地方往往是上下文。模型不知道该看哪些信息、哪些跟当前任务相关，自然就会一本正经地胡说八道。

而这就是最近很火的“上下文工程”在解决的事。举个例子，你让 AI 帮你准备明天的客户会议材料，没有上下文的模型只会给你一份漂亮但空洞的通用模板。而一个上下文工程做得好的系统，会自动知道你要见谁，去拉最近的工单记录，发现续约快到期了，同时还懂得不把你权限之外的内部定价信息塞进来。输出质量的差距是巨大的，但背后的模型可能一模一样。

要做好上下文工程，核心要解决四个问题。首先是数据打通，企业数据散落在数据库、文档、SaaS 平台、各种 API 里，与其全搬到一个地方，不如用零拷贝联邦查询让 AI 在数据原地直接访问，既保证实时性又不破坏原有权限。其次是知识层的构建，原始数据本身不等于有用的上下文，需要做跨系统的实体解析，把关系和层级映射出来，让数据变成知识。第三是精准检索，“更长不等于更好”，更多上下文不等于更好的上下文，必须按意图、角色、时效去过滤，别拿无关信息干扰模型。最后是运行时治理，权限校验必须发生在检索和响应的每一步，这个智能体能不能查这个数据源、这条结果该不该返回给当前用户，都得实时判断。

在精准检索这块，视频中梳理了几种进阶方案。基础 RAG 大家都熟悉了，切块、向量化、相似度搜索，简单场景好用。智能体式 RAG 则更进一步，AI 会迭代地获取数据，第一轮觉得不够就再去拿，有点像人类做调研的过程。GraphRAG 则用图结构来导航，它关心的是实体之间的关系而非单纯的语义相似度，先通过图找到相关实体和文档，再用向量搜索填充细节，精确度高很多。还有上下文压缩技术，即使模型的上下文窗口很大，噪音多了效果照样变差，所以要对长文档做摘要和优先级排序，在有限窗口里最大化信号。

如今，模型能力的边际提升在放缓，但上下文工程的优化空间还非常大。同样的模型，喂给它的上下文质量不同，输出可以是天壤之别。接下来真正拉开差距的，是谁能把上下文这套基础设施搭得更扎实。

多智能体为什么比单智能体强？Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示，多智能体系统性能比单智能体提升 90.2%，其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍，但在复杂任务中优势显著。业界已总结出五种协作模式，并有 n8n、CAMEL-AI 等落地案例。然而，多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用，简单任务直接使用强模型即可。

Claude 新模型发布前让客户极限测试，Agent 落地成核心

Anthropic 在发布新 Claude 模型前，通过头部客户极限测试验证真实业务表现，比单纯跑分更具参考价值。借助 Agent 能力，新模型在起草法律文件等复杂任务中成功率提升约 20%，实现持续准确输出。当前大模型发展重心已转向 Agent 在垂直场景的落地，边缘案例为下一代优化指明方向。这种与客户深度共创的模式建立了高信任壁垒，值得产品团队借鉴。

Claude Opus 4.8 震撼发布，多智能体协同让开发效率翻倍

Anthropic 发布 Claude Opus 4.8，在基准测试中超越 ChatGPT 5.5，重夺编程领域领先地位。新版本核心亮点为动态工作流与 Ultracode 模式，通过多智能体协同大幅提升复杂任务开发效率，同时幻觉率降至四分之一。得益于算力扩充，其性能提升且价格下调，快速模式费用降至三分之一。建议开发者日常使用常规上下文模式并调高努力程度，大项目再开至最大。此外，AI 时代专注力仍是拉开差距的关键。

#Claude#AI 编程

阅读全文

互动讨论

评论区

围绕《AI 不够聪明？也许只是没有给对上下文！》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

AI 不够聪明？也许只是没有给对上下文！

相关文章

多智能体为什么比单智能体强？Anthropic 用 90.2% 的数据给了答案

Claude 新模型发布前让客户极限测试，Agent 落地成核心

Claude Opus 4.8 震撼发布，多智能体协同让开发效率翻倍

评论区