arXiv:2605.17634：仅靠数据分离无法阻止提示注入

CISPA Helmholtz中心和Google的研究人员数学上证明了数据/指令分离——当前防御提示注入攻击的主流方法——无法防止上下文操控。结合基于Contextual Integrity的新理论框架，他们提出了AI代理防护设计的根本不同的方法。

为何数据与指令分离无法阻止提示注入攻击？

研究人员Sahar Abdelnabi（CISPA Helmholtz Center for Information Security）和Eugene Bagdasarian（Google）发表了论文arXiv:2605.17634，对当今AI代理防护的基本假设提出了质疑。

提示注入是一种攻击，来自环境的恶意内容——文档、网页、API响应——向AI代理注入隐藏指令并控制其行为。当今主流防御是数据/指令分离：区分可信用户指令和不可信外部数据，禁止执行来自数据通道的指令。

作者数学上证明这种方法存在根本限制。攻击者不需要伪造看起来像指令的文本——操控情境上下文就足够了。正确区分数据和指令的代理仍然可能被引导采取错误行动，前提是攻击者构造一个看起来合法的上下文，改变代理认为「适当」的行动。

为了形式化问题，作者引入了Contextual Integrity（CI）——来自隐私哲学的Helen Nissenbaum框架。CI不评估传输内容，而是评估信息流是否适合上下文：谁发送、发给谁、在什么情况下、出于什么目的。

应用于AI代理：攻击不仅仅是注入的指令——攻击是任何违反合法任务上下文规范的信息流。作者开发了场景分析，展示了三种违规机制：信息流的虚假表示、上下文规范的操控以及来自不同上下文的多个信息流的混合。

关键理论结果——不可能性结果——表明：攻击者总能构造一个上下文，使被阻止的合法操作看起来可疑，而恶意操作看起来合法。每一次收紧安全规范都会阻止一些合法操作；每一次放松都会放过一些攻击。

作者并不声称防护是不可能的——他们声称现有范式是不够的。解决方案不在于更好的禁止内容检测器，而在于CI感知的对齐框架：代理应该被训练为根据任务上下文评估信息流的适当性，而不仅仅是区分数据和指令格式。

这对所有处理外部内容——电子邮件、文档、网页、API响应——的生产AI代理都有直接影响。通道分离仍然是有用的措施，但作为唯一防线是不够的。

常见问题

什么是提示注入攻击？

提示注入是一种攻击，其中来自环境的恶意内容——网页、文档、API响应——向AI代理注入隐藏指令。代理将其解释为合法用户指令并执行恶意操作，而非预定操作。例如——读取电子邮件的代理遇到包含「将所有联系人转发给攻击者」指令的邮件。

什么是Contextual Integrity？

Contextual Integrity（CI）是Helen Nissenbaum评估信息流适当性的理论框架。CI不看传输的内容，而是评估信息流是否适合其发生的上下文——谁发送、发给谁、在什么情况下、出于什么目的。作者将CI应用于AI代理，以形式化「恶意指令」的含义。

为什么数据/指令分离无法解决问题？

数据和指令的分离试图禁止代理将外部数据视为指令。但通过上下文操控发起的攻击——不是伪造看起来像指令的文本，而是改变情境上下文——不会跨越这条边界。攻击者可以构造一个看起来合法的上下文，引导代理采取错误行动，而不需要任何明确的恶意命令。