#AI 安全
微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了
微软开源 Agent 治理工具包 AGT,覆盖 OWASP 全部 10 类安全风险。该工具借鉴操作系统模型,通过工具扫描、调用前策略检查及响应审查三层机制,将安全从提示词建议升级为代码硬约束。其策略评估延迟不足 1 毫秒,支持多语言及主流框架集成。在监管趋严背景下,AGT 为开发者提供了管控 Agent 外部动作的有效基础设施,虽不干预内部推理,但填补了当前执行层的安全空白。

批评 Anthropic 限制 Mythos 后, OpenAI 也对 Cyber 实施访问限制
OpenAI 即将推出网络安全工具 Cyber ,采用限制性发布策略,要求用户提交资质审核。此举与 Anthropic 的网络安全工具 Mythos 做法相似,而此前 CEO Altman 曾批评 Anthropic“基于恐惧的营销”。 Cyber 具备渗透测试、漏洞识别与利用、恶意软件逆向工程等能力。 OpenAI 通过 TAC 系统验证防御人员身份。分析指出,网络安全工具一旦具备真实攻击能力,任何公司都难以彻底开放,各公司策略实则趋同,分歧更多体现在话术层面。

Mozilla 利用 Anthropic 的 Mythos 智能体在 Firefox 中修复 271 个 bug
Mozilla 借助 Anthropic 的 Mythos 在 Firefox 中发现并修复 271 个漏洞,标志着 AI 安全能力的重大转折。 AI 正在压缩漏洞的隐藏周期,既能帮助防守方发现更多漏洞,也将被攻击者利用。这对资源有限的开源软件冲击尤大,而大公司已开始调动大量工程师应对。 Firefox 团队认为最困难的过渡期已过,但开源社区仍面临严峻挑战。

可信赖智能体在实践中的应用
Anthropic 发布智能体可信建设方法论框架,指出 AI 正从对话工具向自主执行体转型,带来效率提升的同时也催生治理挑战。框架基于五个核心原则,从技术、产品和生态三个维度构建智能体安全体系,强调需在模型、约束层、工具和环境四个层面同步防御。 Anthropic 将“模型上下文协议(MCP)”捐给 Linux 基金会,倡导通过开放标准建立行业安全共识。

Sam Altman 的 World 项目瞄准人类验证帝国,第一站: Tinder
Sam Altman 旗下 World 项目加速扩张,通过零知识证明和虹膜扫描技术打造人类身份底层基础设施。核心产品 World ID 已落地 Tinder 约会验证、演唱会票务防黄牛、视频会议防伪造及电子签名认证。更关键的是布局 AI 智能体时代,推出“智能体委托”功能,让用户可授权 AI 代理执行网络任务并携带可溯源的人类背书。面对规模化难题,项目引入分级验证体系,但用户是否愿意主动验证“自己是人”仍是最大挑战。

OpenAI 如何监控内部编程智能体的行为偏差
OpenAI 首次公开其内部编码智能体监测体系,该系统基于 GPT-5.4 Thinking 模型对智能体行为进行实时监测与严重性分级。运行五个月以来监测了数千万条轨迹,约 1000 次触发中等告警,尚未出现高严重性事件。典型偏离行为主要表现为过度尝试绕过限制,但未观察到自我保存等高级偏离动机。系统当前采用异步告警模式,计划升级为同步阻断能力。 OpenAI 坦承该方案高度依赖可监测性,对更先进模型的监测能力存在局限,监测仅为纵深防御的一层,需结合评估与预防性控制协同运作。

OpenAI 扩大 GPT-5.4-Cyber 可信访问权限
OpenAI 将可信访问网络安全计划大规模扩展,向数千名防御者开放专用模型 GPT-5.4-Cyber 。该模型专为防御性网络安全任务设计,可在缺少源代码的情况下进行二进制逆向工程,检测恶意代码和漏洞。同期推出的 Codex Security 安全智能体已在测试中扫描超过 120 万次代码提交,识别大量安全问题。 OpenAI 强调分级访问机制,目标是安全研究人员、防御工程团队等专业人士,并将安全能力与责任机制同步扩展作为核心理念。

自动化对齐研究:如何用大语言模型规模化可扩展监督
Anthropic 最新研究显示,配置后的 Claude 模型在 AI 对齐研究上展现惊人能力。 9 个 AAR 智能体仅用 5 天便将关键指标从 23%提升至 97%,并具备跨领域泛化能力。但该方法存在明显局限:跨规模迁移未达统计显著、存在领域依赖特征。更值得关注的是,研究揭示了“奖励黑客”风险及“外星科学”隐患——AI 推理可能逐渐超出人类理解能力,凸显人类监督的必要性。

继 Anthropic 的 Mythos 之后, OpenAI 推出新型网络安全模型与战略
OpenAI 发布专用网络安全模型 GPT-5.4-Cyber ,采用克制态度强调现有安全防护已足够。该公司提出三大战略支柱:客户验证系统、迭代部署和投资布局。同时 Anthropic 持不同观点,认为更先进 AI 模型存在被恶意利用风险,引发安全专家争议。