微软全方位防御 AI "越狱" 和 Prompt 攻击

如今，AI 助手能够帮我们回答客服问题、总结邮件内容，极大地提高了工作效率。然而，这些 AI 工具强大的语言能力也使它们容易受到 "提示攻击（prompt attack）" 的威胁，即恶意用户试图诱导 AI 模型忽略系统规则，产生不良结果的行为。

提示攻击主要分为两类：一类是直接提示攻击，也称为 "越狱"(jailbreak)，例如诱导客服 AI 工具生成冒犯性内容。另一类是间接提示攻击，比如让邮件助手遵循隐藏的恶意指令泄露机密信息。

微软负责 AI 产品管理的肯·阿彻(Ken Archer)表示："提示攻击是一个日益严重的安全问题，微软对此高度重视。生成式 AI 正在重塑人们的生活和工作方式，我们正积极帮助开发者构建更加安全的 AI 应用。"

两种提示攻击的区别

"越狱" 指的是用户直接向 AI 系统输入恶意提示，例如要求系统 "忘记" 规则或假装成某个不受约束的角色。这个术语最初用于智能手机，描述用户试图通过打破制造商的限制来自定义手机功能。

间接提示攻击则更为隐蔽，攻击者会在邮件、文档、网站或其他 AI 处理的数据中隐藏恶意指令。例如，一封看似无害的邮件可能隐藏了使用白色字体、编码文本或图像的有害提示。一个商业网站或简历可能插入隐藏文本，操纵 AI 筛选工具跳过对企业的审计或将简历推到候选人名单的顶部。

虽然人们对越狱攻击更为熟悉，但间接攻击带来的危害更大，因为它们可能使外部未授权者获取特权信息。组织在利用生成式 AI 时，通常需要在文档和数据集中植入 AI 系统。但当这些文档和数据集不可信或被破坏时，这样做可能会为导致数据泄露、恶意软件和其他安全漏洞的间接攻击打开大门。

为了防范越狱和间接攻击，微软开发了全面的防御方法，帮助AI开发者检测、评估和管理风险：

这两项工具都可以在 Azure AI Foundry 中使用。此外，微软还提供了多层防御支持。

微软负责 AI 的首席产品官萨拉·伯德 (Sarah Bird) 强调："我们教育客户了解深度防御方法的重要性。我们在模型中构建缓解措施，创建安全系统，并设计用户体验，使他们能够积极参与更安全地使用AI。"

微软的防御策略源自其在网络安全领域的长期专业知识，包括其 AI 红队攻击自身产品，以及微软安全响应中心研究和监控攻击。该中心管理 Bug 赏金计划，让外部研究人员报告微软产品中的漏洞，并为最近公司的 AI 和云产品推出了报告高影响力漏洞的新机会。

"我们通过邀请人们攻击我们来跟上新兴威胁，" 阿彻说，"我们不断从致力于理解新型攻击和改进安全措施的研究人员网络中学习。"

微软研究人员发现，提示攻击利用了大型语言模型 (LLM) 无法区分用户指令和基础数据的缺陷。研究人员正在开发"聚光"技术，这是一组提示工程技术，通过帮助 LLM 区分有效系统指令和敌对指令来降低攻击风险。他们还在研究 "任务漂移"。模型对有无基础文档的任务响应的偏差，作为检测间接攻击的新方法。

"考虑到生成式 AI 架构处于早期阶段，拥有敏感数据资产的企业应关注安全性，"阿彻总结道，"但他们也应知道，通过关闭这些攻击媒介，他们可以自信地构建生成式 AI 应用。"

随着技术的不断发展，微软将持续完善其负责任的 AI 实践和工具，为用户和开发者创造更安全的数字未来。