微软开源 Agent Governance Toolkit：AI Agent 的安全终于有人管了

微软开源 Agent 治理工具包 AGT，覆盖 OWASP 全部 10 类安全风险。该工具借鉴操作系统模型，通过工具扫描、调用前策略检查及响应审查三层机制，将安全从提示词建议升级为代码硬约束。其策略评估延迟不足 1 毫秒，支持多语言及主流框架集成。在监管趋严背景下，AGT 为开发者提供了管控 Agent 外部动作的有效基础设施，虽不干预内部推理，但填补了当前执行层的安全空白。

发布于2026年5月4日 14:03

编辑零重力瓦力

评论0 条

阅读51

#AI 安全 #智能体

微软刚开源了一个专门的 AI Agent "刹车" 工具包，而且覆盖了 OWASP 全部 10 类 Agent 安全风险。这件事值得关注，因为它解决的恰恰是当前 Agent 开发中最被忽视的问题：Agent 能干活了，但谁来管它别干坏事？

背景：Agent 跑起来了，但没人看着

AI Agent 今年的爆发速度超出预期。LangChain、AutoGen、CrewAI、微软 Agent Framework、Google ADK，框架越来越多，Agent 能调用的工具也越来越多。MCP 协议让 Agent 发现和调用外部工具变得标准化，但问题来了：MCP 只管“发现和执行”，不管“该不该执行”。

这就像一个员工有了所有办公室钥匙，但没有人查他进哪个房间是合规的。

微软 4 月初开源的 Agent Governance Toolkit（AGT），就是来解决这个问题的。

核心机制：三层防护

AGT 的架构借鉴了操作系统的安全模型，把 Agent 的行为分成三个层级来管：

工具定义扫描：在 Agent 看到 tool description 之前，AGT 先扫描一遍，查有没有隐藏指令、仿冒工具名、对抗性模式。这防的是 OWASP MCP03:2025 里定义的 Tool Poisoning 攻击。
调用前策略检查：每次 Agent 调工具之前，AGT 用声明式规则（支持 YAML、OPA/Rego、Cedar 三种语法）做一次确定性判断：允许、拒绝、还是需要人工审批。微软内部红队测试结果：仅靠提示词里的安全指令，策略违反率 26.67%，超过四分之一的对抗场景会成功。
响应审查：工具返回结果后，AGT 再检查一遍，防止被污染的输出带着恶意指令流回 Agent 上下文。

三个值得关注的数字

策略评估每调用增加不到 1 毫秒延迟
支持 Python、TypeScript、Rust、Go、.NET 五种语言
已有 Dify、LlamaIndex、LangGraph、OpenAI Agents SDK、Haystack、PydanticAI 的集成

为什么这件事重要

OWASP 在 2025 年底发布了 Agentic AI Top 10，欧盟 AI Act 的高风险义务 2026 年 8 月生效，科罗拉多 AI Act 6 月生效。监管在收紧，但基础设施跟不上。

AGT 的价值在于：它让 Agent 安全从 "写在 prompt 里的建议" 变成了 "代码层面的硬约束"。这和 20 年前操作系统从 "靠用户自觉" 进化到 "内核强制权限"是同一个逻辑。

值得开发者关注的点

安装只需一行：pip install agent-governance-toolkit[full]，然后写几行 YAML 配置就能用
项目 MIT 协议开源，微软明确表态希望未来捐给基金会，由社区治理
9500+ 测试用例、ClusterFuzzLite 持续模糊测试、SLSA 兼容的构建溯源
Agent 身份系统用了 Ed25519 + 抗量子的 ML-DSA-65 签名算法

但我认为 AGT 目前最大的局限是：它只能管 MCP 调用层的行为，对 Agent 内部推理过程的异常无能为力。但这恰好是它的定位决定的，它管的是 "动作"，不是 "想法"。不管怎么说，在 Agent 越来越自主的今天，先把动作管住，是正确的一步。

Windsurf 2.0 拆解：Devin 被塞进编辑器，氛围编程终于有了“调度中心”

Cognition 发布 Windsurf 2.0，深度整合 Devin 实现本地思考与云端执行分工。新版推出 Agent Command Center 支持多智能体可视化管理，搭载自研 SWE-1.5 模型大幅提升代码定位与编辑速度，并引入 Spaces 容器解决上下文延续问题。Pro 版调整为日配额制且包含 Devin 功能。相比 Cursor 3，Windsurf 2.0 凭借自研模型与云端执行能力，更适合处理陌生代码库及长任务自动化场景。

多智能体为什么比单智能体强？Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示，多智能体系统性能比单智能体提升 90.2%，其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍，但在复杂任务中优势显著。业界已总结出五种协作模式，并有 n8n、CAMEL-AI 等落地案例。然而，多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用，简单任务直接使用强模型即可。

Claude 新模型发布前让客户极限测试，Agent 落地成核心

Anthropic 在发布新 Claude 模型前，通过头部客户极限测试验证真实业务表现，比单纯跑分更具参考价值。借助 Agent 能力，新模型在起草法律文件等复杂任务中成功率提升约 20%，实现持续准确输出。当前大模型发展重心已转向 Agent 在垂直场景的落地，边缘案例为下一代优化指明方向。这种与客户深度共创的模式建立了高信任壁垒，值得产品团队借鉴。

#Anthropic#智能体

阅读全文

互动讨论