🟡 🛡️ 安全 发布于: · 2 分钟阅读 ·

arXiv:2605.17634:为何数据与指令分离无法阻止提示注入攻击?

arXiv:2605.17634 ↗

Editorial illustration: CISPA Helmholtz中心和Google研究人员数学证明数据指令分离的局限性

CISPA Helmholtz中心和Google的研究人员数学上证明了数据/指令分离——当前防御提示注入攻击的主流方法——无法防止上下文操控。结合基于Contextual Integrity的新理论框架,他们提出了AI代理防护设计的根本不同的方法。

🤖

本文由人工智能基于一手来源生成。

为何数据与指令分离无法阻止提示注入攻击?

研究人员Sahar Abdelnabi(CISPA Helmholtz Center for Information Security)和Eugene Bagdasarian(Google)发表了论文arXiv:2605.17634,对当今AI代理防护的基本假设提出了质疑。

提示注入是一种攻击,来自环境的恶意内容——文档、网页、API响应——向AI代理注入隐藏指令并控制其行为。当今主流防御是数据/指令分离:区分可信用户指令和不可信外部数据,禁止执行来自数据通道的指令。

作者数学上证明这种方法存在根本限制。攻击者不需要伪造看起来像指令的文本——操控情境上下文就足够了。正确区分数据和指令的代理仍然可能被引导采取错误行动,前提是攻击者构造一个看起来合法的上下文,改变代理认为「适当」的行动。

Contextual Integrity作为新理论框架

为了形式化问题,作者引入了Contextual Integrity(CI)——来自隐私哲学的Helen Nissenbaum框架。CI不评估传输内容,而是评估信息流是否适合上下文:谁发送、发给谁、在什么情况下、出于什么目的。

应用于AI代理:攻击不仅仅是注入的指令——攻击是任何违反合法任务上下文规范的信息流。作者开发了场景分析,展示了三种违规机制:信息流的虚假表示、上下文规范的操控以及来自不同上下文的多个信息流的混合。

关键理论结果——不可能性结果——表明:攻击者总能构造一个上下文,使被阻止的合法操作看起来可疑,而恶意操作看起来合法。每一次收紧安全规范都会阻止一些合法操作;每一次放松都会放过一些攻击。

防御是否可能?

作者并不声称防护是不可能的——他们声称现有范式是不够的。解决方案不在于更好的禁止内容检测器,而在于CI感知的对齐框架:代理应该被训练为根据任务上下文评估信息流的适当性,而不仅仅是区分数据和指令格式。

这对所有处理外部内容——电子邮件、文档、网页、API响应——的生产AI代理都有直接影响。通道分离仍然是有用的措施,但作为唯一防线是不够的。

常见问题

什么是提示注入攻击?
提示注入是一种攻击,其中来自环境的恶意内容——网页、文档、API响应——向AI代理注入隐藏指令。代理将其解释为合法用户指令并执行恶意操作,而非预定操作。例如——读取电子邮件的代理遇到包含「将所有联系人转发给攻击者」指令的邮件。
什么是Contextual Integrity?
Contextual Integrity(CI)是Helen Nissenbaum评估信息流适当性的理论框架。CI不看传输的内容,而是评估信息流是否适合其发生的上下文——谁发送、发给谁、在什么情况下、出于什么目的。作者将CI应用于AI代理,以形式化「恶意指令」的含义。
为什么数据/指令分离无法解决问题?
数据和指令的分离试图禁止代理将外部数据视为指令。但通过上下文操控发起的攻击——不是伪造看起来像指令的文本,而是改变情境上下文——不会跨越这条边界。攻击者可以构造一个看起来合法的上下文,引导代理采取错误行动,而不需要任何明确的恶意命令。