能够有效避免 LLM 产生幻觉的智能体框架 Parlant

Parlant 是一款专为抑制大模型幻觉设计的智能体框架，提出注意力推理查询（ARQ）方法：通过 JSON 结构化模板强制模型在每步推理中回答规则约束、历史操作、工具调用等关键问题，使长对话中的规则遵循率提升至 90.2%，显著优于思维链，在复杂流程与多轮交互中更稳定可靠。

发布于2025年10月21日 03:11

编辑零重力瓦力

评论0 条

阅读45

#智能体 #思维链

一个新的能够有效避免 LLM 产生幻觉的智能体框架 Parlant，它采用了一种新的，叫做注意力推理查询（Attentive Reasoning Queries, ARQ）的推理方式。开发者表示，这种新的方式，在各种测试场景下的准确率高达 90.2%，比现在流行的 Chain-of-Thought（思维链）还要靠谱。

我们在和大模型聊天时都会遇到这样的问题，一开始模型还能记住各种规则，但聊着聊着，它就会慢慢忘了初衷。比如你给它写了一大堆操作规范，明明说了 “绝不能主动承诺退款”，结果聊到后面，它还是可能直接许诺给客户退款。这个问题的根本原因是模型难以在长对话里持续关注关键的规则和上下文。

传统的思维链方法（CoT），虽然让模型 “分步思考”，但整个过程还是比较自由，缺乏强约束。ARQ 的思路完全不一样，它的每一步推理都被设计成 “有针对性的问题”，而且这些问题是写死在结构化模板（Json 格式的文本）里。举个例子，模型每一步都要明确回答，当前客户在问什么？相关的行为准则是什么？之前采取过哪些操作？接下来要不要调用外部工具？等等。这种方式可以反复强化最重要的规则，让推理过程变得可控、可查。

这样，模型最终的输出就不会是一堆天马行空的内容，而是走完一条有明确节点、有约束、能追溯的推理流程。开发团队的数据测试现实，ARQ 的表现确实比传统做法更稳，尤其在涉及复杂流程和多轮对话时，表现非常突出。

这个方法已经被集成进 Parlant 这个很火的开源项目里了，现在很多人都在用。ARQ 主要用在三个环节：挑选适用的行为规则、判断是否需要调用外部工具，以及最终生成对客户的回复。

归根结底，一个重要启示就是：让推理过程结构化、可量化、和实际业务贴合，模型就不容易胡说八道。自由发挥听起来很强大，但在要求严谨、流程复杂的场景里，结构化的推理方式才是真正靠谱的选择。

项目地址：github.com/emcie-co/parlant

Google 为何要开发 Gemma 4 模型

谷歌推出开源模型 Gemma 4，旨在解决网络受限地区无法使用前沿 AI 的问题。该模型追求内存占用下的智能最大化，首次具备多模态与智能体能力，支持在无网移动端高效运行复杂任务。目前已在乌干达离线医疗系统及秘鲁原住民语言保护等场景中落地应用。通过将大模型蒸馏至终端设备，Gemma 4 摆脱了对云端算力的依赖，推动去中心化开源生态发展，赋能各社区按需构建专属系统。

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型，通过在扩散模型隐空间直接存储三维记忆，解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程，使生成速度提升最高 10.57 倍，显存占用降低 55 倍，且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案，虽暂不支持动态物体记忆，但已开源并适用于机器人仿真等静态场景任务。

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA，在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链，而非模拟替代。主要特性包括：Plan 模式生成结构化计划文档以防跑偏；原生调试器集成支持断点与运行时状态检查；支持异步远程控制长任务；基于项目上下文的交互式代码审查；以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

#智能体#AI 编程

阅读全文

互动讨论

评论区

围绕《能够有效避免 LLM 产生幻觉的智能体框架 Parlant》展开交流，未登录用户可浏览评论，登录后可参与讨论。

评论数

登录后参与评论

支持发表观点与回复一级评论，互动后将同步到消息中心。

登录后评论

暂无评论，欢迎成为第一个参与讨论的人。

能够有效避免 LLM 产生幻觉的智能体框架 Parlant

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

评论区