微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了

微软开源 Agent 治理工具包 AGT,覆盖 OWASP 全部 10 类安全风险。该工具借鉴操作系统模型,通过工具扫描、调用前策略检查及响应审查三层机制,将安全从提示词建议升级为代码硬约束。其策略评估延迟不足 1 毫秒,支持多语言及主流框架集成。在监管趋严背景下,AGT 为开发者提供了管控 Agent 外部动作的有效基础设施,虽不干预内部推理,但填补了当前执行层的安全空白。

发布于2026年5月4日 14:03
编辑零重力瓦力
评论0
阅读62

微软刚开源了一个专门的 AI Agent "刹车" 工具包,而且覆盖了 OWASP 全部 10 类 Agent 安全风险。这件事值得关注,因为它解决的恰恰是当前 Agent 开发中最被忽视的问题:Agent 能干活了,但谁来管它别干坏事?

背景:Agent 跑起来了,但没人看着

AI Agent 今年的爆发速度超出预期。LangChain、AutoGen、CrewAI、微软 Agent Framework、Google ADK,框架越来越多,Agent 能调用的工具也越来越多。MCP 协议让 Agent 发现和调用外部工具变得标准化,但问题来了:MCP 只管“发现和执行”,不管“该不该执行”。

这就像一个员工有了所有办公室钥匙,但没有人查他进哪个房间是合规的。

微软 4 月初开源的 Agent Governance Toolkit(AGT),就是来解决这个问题的。

核心机制:三层防护

AGT 的架构借鉴了操作系统的安全模型,把 Agent 的行为分成三个层级来管:

  1. 工具定义扫描:在 Agent 看到 tool description 之前,AGT 先扫描一遍,查有没有隐藏指令、仿冒工具名、对抗性模式。这防的是 OWASP MCP03:2025 里定义的 Tool Poisoning 攻击。

  2. 调用前策略检查:每次 Agent 调工具之前,AGT 用声明式规则(支持 YAML、OPA/Rego、Cedar 三种语法)做一次确定性判断:允许、拒绝、还是需要人工审批。微软内部红队测试结果:仅靠提示词里的安全指令,策略违反率 26.67%,超过四分之一的对抗场景会成功。

  3. 响应审查:工具返回结果后,AGT 再检查一遍,防止被污染的输出带着恶意指令流回 Agent 上下文。

三个值得关注的数字

  • 策略评估每调用增加不到 1 毫秒延迟
  • 支持 Python、TypeScript、Rust、Go、.NET 五种语言
  • 已有 Dify、LlamaIndex、LangGraph、OpenAI Agents SDK、Haystack、PydanticAI 的集成

为什么这件事重要

OWASP 在 2025 年底发布了 Agentic AI Top 10,欧盟 AI Act 的高风险义务 2026 年 8 月生效,科罗拉多 AI Act 6 月生效。监管在收紧,但基础设施跟不上。

AGT 的价值在于:它让 Agent 安全从 "写在 prompt 里的建议" 变成了 "代码层面的硬约束"。这和 20 年前操作系统从 "靠用户自觉" 进化到 "内核强制权限"是同一个逻辑。

值得开发者关注的点

  • 安装只需一行:pip install agent-governance-toolkit[full],然后写几行 YAML 配置就能用
  • 项目 MIT 协议开源,微软明确表态希望未来捐给基金会,由社区治理
  • 9500+ 测试用例、ClusterFuzzLite 持续模糊测试、SLSA 兼容的构建溯源
  • Agent 身份系统用了 Ed25519 + 抗量子的 ML-DSA-65 签名算法

但我认为 AGT 目前最大的局限是:它只能管 MCP 调用层的行为,对 Agent 内部推理过程的异常无能为力。但这恰好是它的定位决定的,它管的是 "动作",不是 "想法"。不管怎么说,在 Agent 越来越自主的今天,先把动作管住,是正确的一步。

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点
AI 编程开发
2026年6月19日
0 条评论
零重力瓦力

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA,在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链,而非模拟替代。主要特性包括:Plan 模式生成结构化计划文档以防跑偏;原生调试器集成支持断点与运行时状态检查;支持异步远程控制长任务;基于项目上下文的交互式代码审查;以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

#智能体#AI 编程
阅读全文
Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
互动讨论

评论区

围绕《微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。