arXiv:2605.15338 スリーパー・メモリ・ポイズニング:LLMエージェントの永続メモリを介したGPT-5.5への攻撃成功率99.8%
「Hidden in Memory」は、Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth、Mario Fritzが2026年5月14日に発表したarXiv論文で、ステートフルなLLMエージェントへの遅延実行攻撃を提案しています。外部コンテキスト(文書、Webページ)の敵対的コンテンツがエージェントの永続メモリを汚染し、GPT-5.5で99.8%、Kimi-K2.6で95%の成功率を達成。汚染されたメモリが攻撃者意図の行動を誘発する割合は60〜89%です。
この記事はAIにより一次情報源から生成されました。
Sidharth Pulipaka、Stanislau Hlebik、Leonidas Raghav、Sahar Abdelnabi、Vyas Raina、Ivaxi Sheth、Mario Fritzは2026年5月14日、arXivに論文を発表し、LLMエージェントの永続メモリを悪用した遅延実行攻撃であるスリーパー・メモリ・ポイズニングを提案しています。その攻撃成功率は衝撃的な数値です。GPT-5.5で99.8%、Kimi-K2.6で95%。
スリーパー・メモリ・ポイズニングとは具体的に何か?
古典的なLLMセキュリティ脅威――プロンプト・インジェクション、ジェイルブレイク、コンテキスト操作――には根本的な制限が1つあります。攻撃は敵対的コンテンツがコンテキストにある間だけ持続します。ユーザーがセッションを終了するかコンテキストをクリアすると、攻撃は消えます。
スリーパー・メモリ・ポイズニングはそのプロファイルを変えます。現在のステートフルなLLMアシスタント(ChatGPT with Memory、Claude Projects、Geminiパーソナライゼーション)は複数のセッションにわたってユーザー固有の情報を永続化します。論文は、この永続メモリが捏造された事実によって汚染できることを示しています。
- 通常のユーザー・インタラクションを通じてストレージに自動的に書き込まれる
- 取得トリガーが来るまで休眠状態を維持する
- 後のセッションでエージェントがそのメモリ・アイテムを別のタスクで使用するときに起動する
- 後続の会話を攻撃者が意図する方向に操作する
スリーパー・メモリ・ポイズニングと古典的なプロンプト・インジェクションの違いは劇的です。持続性です。攻撃はトリガーされる前に数日または数週間休眠状態を保てます。
攻撃パイプラインの具体的な流れ
論文は完全な攻撃パイプラインを詳細に評価しています。
- 捏造コンテンツの書き込み――エージェントが処理する外部文書、Webページ、リポジトリ内の敵対的コンテンツ
- メモリへの書き込み――エージェントがコンテンツを処理し、捏造された「事実」をユーザー設定、事実、またはコンテキストとして永続メモリに書き込む
- 休眠期間――書き込みと取得の間のすべての期間
- メモリの取得――エージェントが後のセッションで別のタスクにそのメモリ・アイテムを使用する
- 行動のトリガー――汚染されたメモリがエージェントの推論に影響を与え、攻撃者が意図する行動をトリガーする
このアプローチはユーザーと外部ソースの間の信頼境界を悪用します。エージェントはユーザーが提供するものはすべて信頼できると扱います。たとえユーザーがアップロードした外部文書に悪意のある指示が含まれていてもです。
具体的な成功率の数値
論文は2つのフロンティア・モデルに対する正確な指標を示しています。
| モデル | メモリ・ポイズニング成功率 | 攻撃者意図の行動 |
|---|---|---|
| GPT-5.5 | 99.8% | 正常な取得の60〜89% |
| Kimi-K2.6 | 95% | 正常な取得の60〜89% |
GPT-5.5の数値は特に衝撃的です。99.8%は、攻撃者がエージェントの構造を知っていればメモリの汚染がほぼ保証されることを意味します。最先端のアラインメント・トレーニングを受けたフロンティア・モデルはこの攻撃ベクターに対してほぼ完全に無防備です。
2番目の指標――行動トリガー率60〜89%――は、メモリの汚染の成功が大多数のケースで実行可能な攻撃に変換されることを示しています。これは理論的な脅威ではなく、現実の影響を持つ本番グレードの攻撃ベクターです。
メモリ・ポイズニングが検出しにくいのはなぜか?
防御の難しさはいくつかの要因から来ています。
- メモリへの書き込みは通常の操作――エージェントはユーザー・インタラクションを通じて継続的にメモリ・アイテムを書き込む
- 異常シグナルなし――敵対的メモリ・アイテムは他のユーザー事実と見た目が同じ
- クロスセッション評価が必要――シングルセッション・モニタリングは攻撃を検出できない(トリガーが後で来るため)
- 帰属が困難――攻撃がトリガーされると、元の敵対的ソースへの帰属は簡単ではない事後フォレンジック作業
このアプローチにはエンド・ツー・エンドのメモリ・パイプライン監査が必要であり、単一ポイントのセキュリティ制御では不十分です。
本番LLM展開への意味
この発見は、メモリ機能を持つLLMエージェントを展開する組織に重大な示唆を持ちます。
- ChatGPT Enterprise with Memory――従業員が未検証ソースからの文書をアップロードする場合の潜在的なリスク
- Claude Projects――侵害されたプロジェクトがクロスプロジェクト・メモリを汚染する可能性
- 長期メモリとしてベクトル・ストアを使用するカスタム・エージェント展開――大規模な攻撃対象領域
- 共有メモリを持つマルチユーザー・システム――1人の侵害されたユーザーがすべてに影響を与える可能性
論文が示唆する防御の優先事項:
- メモリ・ソースの来歴追跡――各メモリ・アイテムを発生源まで追跡
- メモリへの書き込み前の敵対的コンテンツのスキャン
- 取得異常検出――異常なメモリ・アクセス・パターンのフラグ付け
- メモリの有効期限ポリシー――古いメモリ・アイテムの自動クリーンアップ
2026年エージェント・セキュリティ・ランドスケープにおける位置付け
この論文は2026年5月のエージェント・セーフティ/セキュリティ研究の爆発的な波に沿うものです。
- arXiv FATE(5月12日)――形式的技術による攻撃33.5%削減
- arXiv History Anchors(5月13日)――履歴操作による91〜98%の不安全なシフト
- arXiv Sycophantic Consensus(5月15日)――アラインメント失敗モード
- Microsoft AI Delegation(5月15日)――信頼性19〜34%低下
- arXiv Compositional Jailbreaking(5月15日)――ミューテーター・チェーンの相乗効果
トレンドは明確です。2026年はエージェント・システムが「実験的能力」から「本番グレードの攻撃対象」に移行する年です。主流のRLHF+安全トレーニングがチャットボット・ユースケースに提供していたセキュリティは、永続メモリを持つステートフル・エージェントには不十分です。
スリーパー・メモリ・ポイズニングは2026年5月の最も重要なセキュリティ論文である可能性が高いです。2つの数値のためです。99.8%と複数セッションを超えた持続性。攻撃者がそれらの結果を実際の展開で再現する前に、業界はLLMメモリ・システムのアーキテクチャを真剣に見直す必要があります。
よくある質問
- スリーパー・メモリ・ポイズニングとは具体的に何を意味しますか?
- 古典的なプロンプト・インジェクション攻撃は敵対的コンテンツがコンテキストにある間だけ持続します。スリーパー・メモリ・ポイズニングは長期メモリ・ストアに保存された捏造された事実を通じてエージェントの永続メモリを汚染します。攻撃は複数のセッションを超えて休眠状態を維持し、エージェントが後でそのメモリ・アイテムに別のタスクでアクセスしたときに起動します。これは持続性がない古典的なプロンプト・インジェクションとは劇的に異なります。
- 具体的な成功率の数値はどのようなものですか?
- GPT-5.5:ポイズニング成功率99.8%。Kimi-K2.6:成功率95%。正常に取得された汚染メモリのうち、攻撃者意図の行動は60〜89%のケースでトリガーされました。攻撃パイプラインはストレージへの捏造書き込みから後続の取得、それ以降の会話の操作まで完全に評価されています。