arXiv:2605.17634：データ分離だけではプロンプトインジェクションは防げない

CISPA HelmholtzセンターとGoogleの研究者たちが、データ/命令分離——プロンプトインジェクション攻撃の現在の主流的防御——がコンテキスト操作から保護できないことを数学的に証明しました。Contextual Integrityに基づく新しい理論的フレームワークとともに、AIエージェント保護設計の根本的に異なるアプローチを提案しています。

なぜデータと命令の分離ではプロンプトインジェクションを防げないのですか？

研究者Sahar Abdelnabi（CISPA Helmholtz Center for Information Security）とEugene Bagdasarian（Google）が、今日のAIエージェント保護の基本的な前提に疑問を呈する論文arXiv:2605.17634を発表しました。

プロンプトインジェクションは、環境からの悪意あるコンテンツ（ドキュメント、Webページ、APIレスポンス）がAIエージェントに隠された命令を注入し、その行動を制御する攻撃です。今日の主流的防御はデータ/命令分離です。信頼できるユーザー命令と信頼できない外部データを区別し、データチャネルからの命令の実行を禁止します。

著者たちは、このアプローチに根本的な限界があることを数学的に証明しています。攻撃者は命令のように見えるテキストを置く必要はありません——状況のコンテキストを操作するだけで十分です。データと命令を正しく区別するエージェントでも、攻撃者がエージェントが「適切」と考える行動を変える正当に見えるコンテキストを構築すれば、誤った行動に誘導される可能性があります。

新しい理論的フレームワークとしてのContextual Integrity

問題を形式化するために、著者たちはプライバシーの哲学からContextual Integrity（CI）——Helen Nissenbaum のフレームワーク——を導入します。CIは何が転送されるかを評価するのではなく、情報フローがコンテキストに適切かどうかを評価します。誰が送信するか、誰に、どのような状況で、どのような目的で。

AIエージェントに適用すると：攻撃は単なる注入された命令だけではありません——攻撃は正当なタスクのコンテキスト規範に違反するすべての情報フローです。著者たちは、3つの違反メカニズムを示すシナリオ分析を開発しました。情報フローの偽装表示、コンテキスト規範の操作、異なるコンテキストからの複数フローの混合です。

主要な理論的結果——不可能性定理——は次のことを示します：攻撃者は常に、ブロックされた正当な操作が疑わしく見え、悪意ある操作が正当に見えるコンテキストを構築できます。セキュリティ規範の強化は、いくつかの正当な操作をブロックします。緩和はいくつかの攻撃を通過させます。

そもそも防御は可能ですか？

著者たちは防御が不可能だと主張しているのではなく——既存のパラダイムでは不十分だと主張しています。解決策は、より優れた禁止コンテンツ検出器ではなく、CIを意識したアライメントフレームワークにあります。エージェントは、データと命令のフォーマットを区別するだけでなく、タスクのコンテキストに応じて情報フローの適切性を評価するようにトレーニングされる必要があります。

これは、外部コンテンツ（メール、ドキュメント、Webページ、APIレスポンス）を処理するすべての本番AIエージェントに直接的な影響があります。チャネル分離は有用な措置ですが、唯一の防衛線としては不十分です。

よくある質問

プロンプトインジェクション攻撃とは何ですか？

プロンプトインジェクションは、環境からの悪意あるコンテンツ（Webページ、ドキュメント、APIレスポンス）がAIエージェントのコンテキストに隠された命令を注入する攻撃です。エージェントはそれを正当なユーザー命令として解釈し、計画された操作の代わりに悪意ある操作を実行します。例：メール読み取りエージェントが「すべての連絡先を攻撃者に転送する」という命令を含むメッセージに遭遇する。

Contextual Integrityとは何ですか？

Contextual Integrity（CI）は、情報フローの適切性を評価するためのHelen Nissenbaum の理論的フレームワークです。CIは何が転送されるかではなく、情報フローが発生するコンテキストに適切かどうかを評価します。誰が送信するか、誰に、どのような状況で、どのような目的で。著者たちはCIをAIエージェントに適用し、「悪意ある命令」が何を意味するかを形式化しています。

なぜデータ/命令分離では問題が解決しないのですか？

データと命令の分離は、エージェントが外部データを命令として扱うことを禁止しようとします。しかし、コンテキスト操作を通じた攻撃——命令のように見えるテキストを置くのではなく、状況のコンテキストを変える——はその境界を越えません。攻撃者は、一つの明示的な悪意ある命令なしにエージェントを誤った行動に誘導する正当に見えるコンテキストを構築できます。

arXiv:2605.17634：データと命令の分離ではプロンプトインジェクションを防げない理由

なぜデータと命令の分離ではプロンプトインジェクションを防げないのですか？

新しい理論的フレームワークとしてのContextual Integrity

そもそも防御は可能ですか？

よくある質問

出典

関連ニュース