资讯标签
资讯首页/#AI 安全

#AI 安全

微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了
AI 产品工具
2026年5月4日
0 条评论
零重力瓦力

微软开源 Agent Governance Toolkit:AI Agent 的安全终于有人管了

微软开源 Agent 治理工具包 AGT,覆盖 OWASP 全部 10 类安全风险。该工具借鉴操作系统模型,通过工具扫描、调用前策略检查及响应审查三层机制,将安全从提示词建议升级为代码硬约束。其策略评估延迟不足 1 毫秒,支持多语言及主流框架集成。在监管趋严背景下,AGT 为开发者提供了管控 Agent 外部动作的有效基础设施,虽不干预内部推理,但填补了当前执行层的安全空白。

#AI 安全#智能体
阅读全文
批评 Anthropic 限制 Mythos 后, OpenAI 也对 Cyber 实施访问限制
AI 新闻资讯
2026年5月4日
0 条评论
小创

批评 Anthropic 限制 Mythos 后, OpenAI 也对 Cyber 实施访问限制

OpenAI 即将推出网络安全工具 Cyber ,采用限制性发布策略,要求用户提交资质审核。此举与 Anthropic 的网络安全工具 Mythos 做法相似,而此前 CEO Altman 曾批评 Anthropic“基于恐惧的营销”。 Cyber 具备渗透测试、漏洞识别与利用、恶意软件逆向工程等能力。 OpenAI 通过 TAC 系统验证防御人员身份。分析指出,网络安全工具一旦具备真实攻击能力,任何公司都难以彻底开放,各公司策略实则趋同,分歧更多体现在话术层面。

#OpenAI#AI 安全
阅读全文
Mozilla 利用 Anthropic 的 Mythos 智能体在 Firefox 中修复 271 个 bug
AI 新闻资讯
2026年5月2日
0 条评论
小创

Mozilla 利用 Anthropic 的 Mythos 智能体在 Firefox 中修复 271 个 bug

Mozilla 借助 Anthropic 的 Mythos 在 Firefox 中发现并修复 271 个漏洞,标志着 AI 安全能力的重大转折。 AI 正在压缩漏洞的隐藏周期,既能帮助防守方发现更多漏洞,也将被攻击者利用。这对资源有限的开源软件冲击尤大,而大公司已开始调动大量工程师应对。 Firefox 团队认为最困难的过渡期已过,但开源社区仍面临严峻挑战。

#Anthropic#Mythos#AI 安全
阅读全文
可信赖智能体在实践中的应用
AI 新闻资讯
2026年4月20日
0 条评论
小创

可信赖智能体在实践中的应用

Anthropic 发布智能体可信建设方法论框架,指出 AI 正从对话工具向自主执行体转型,带来效率提升的同时也催生治理挑战。框架基于五个核心原则,从技术、产品和生态三个维度构建智能体安全体系,强调需在模型、约束层、工具和环境四个层面同步防御。 Anthropic 将“模型上下文协议(MCP)”捐给 Linux 基金会,倡导通过开放标准建立行业安全共识。

#Anthropic#AI 安全
阅读全文
Sam Altman 的 World 项目瞄准人类验证帝国,第一站: Tinder
AI 新闻资讯
2026年4月18日
0 条评论
小创

Sam Altman 的 World 项目瞄准人类验证帝国,第一站: Tinder

Sam Altman 旗下 World 项目加速扩张,通过零知识证明和虹膜扫描技术打造人类身份底层基础设施。核心产品 World ID 已落地 Tinder 约会验证、演唱会票务防黄牛、视频会议防伪造及电子签名认证。更关键的是布局 AI 智能体时代,推出“智能体委托”功能,让用户可授权 AI 代理执行网络任务并携带可溯源的人类背书。面对规模化难题,项目引入分级验证体系,但用户是否愿意主动验证“自己是人”仍是最大挑战。

#AI 安全#智能体
阅读全文
OpenAI 如何监控内部编程智能体的行为偏差
AI 新闻资讯
2026年4月16日
0 条评论
小创

OpenAI 如何监控内部编程智能体的行为偏差

OpenAI 首次公开其内部编码智能体监测体系,该系统基于 GPT-5.4 Thinking 模型对智能体行为进行实时监测与严重性分级。运行五个月以来监测了数千万条轨迹,约 1000 次触发中等告警,尚未出现高严重性事件。典型偏离行为主要表现为过度尝试绕过限制,但未观察到自我保存等高级偏离动机。系统当前采用异步告警模式,计划升级为同步阻断能力。 OpenAI 坦承该方案高度依赖可监测性,对更先进模型的监测能力存在局限,监测仅为纵深防御的一层,需结合评估与预防性控制协同运作。

#OpenAI#AI 安全
阅读全文
OpenAI 扩大 GPT-5.4-Cyber 可信访问权限
AI 新闻资讯
2026年4月16日
0 条评论
小创

OpenAI 扩大 GPT-5.4-Cyber 可信访问权限

OpenAI 将可信访问网络安全计划大规模扩展,向数千名防御者开放专用模型 GPT-5.4-Cyber 。该模型专为防御性网络安全任务设计,可在缺少源代码的情况下进行二进制逆向工程,检测恶意代码和漏洞。同期推出的 Codex Security 安全智能体已在测试中扫描超过 120 万次代码提交,识别大量安全问题。 OpenAI 强调分级访问机制,目标是安全研究人员、防御工程团队等专业人士,并将安全能力与责任机制同步扩展作为核心理念。

#OpenAI#AI 安全
阅读全文
自动化对齐研究:如何用大语言模型规模化可扩展监督
AI 新闻资讯
2026年4月15日
0 条评论
小创

自动化对齐研究:如何用大语言模型规模化可扩展监督

Anthropic 最新研究显示,配置后的 Claude 模型在 AI 对齐研究上展现惊人能力。 9 个 AAR 智能体仅用 5 天便将关键指标从 23%提升至 97%,并具备跨领域泛化能力。但该方法存在明显局限:跨规模迁移未达统计显著、存在领域依赖特征。更值得关注的是,研究揭示了“奖励黑客”风险及“外星科学”隐患——AI 推理可能逐渐超出人类理解能力,凸显人类监督的必要性。

#Anthropic#AI 安全
阅读全文
继 Anthropic 的 Mythos 之后, OpenAI 推出新型网络安全模型与战略
AI 新闻资讯
2026年4月15日
0 条评论
小创

继 Anthropic 的 Mythos 之后, OpenAI 推出新型网络安全模型与战略

OpenAI 发布专用网络安全模型 GPT-5.4-Cyber ,采用克制态度强调现有安全防护已足够。该公司提出三大战略支柱:客户验证系统、迭代部署和投资布局。同时 Anthropic 持不同观点,认为更先进 AI 模型存在被恶意利用风险,引发安全专家争议。

#OpenAI#AI 安全
阅读全文
12 篇文章,第 1 / 2