なぜエージェントはKVキャッシュを共有するのですか？

エンタープライズのマルチエージェントシステムでは、複数のエージェントが関連するタスクを処理し、効率化のために同じコンテキストメモリを共有することが多いです——各エージェントが同じ文書のKVキャッシュを再計算する代わりに、システムが一度だけ生成して共有します。これにより推論コストを3〜5倍削減できます。

共有KVキャッシュのリスクは何ですか？

KVキャッシュにはLLMを通過したトークンの意味的埋め込みベクトルが含まれています。エージェントAが機密文書を処理してそのKVキャッシュを残すと、同じキャッシュにアクセスできるエージェントBが、アテンションプロービングを通じてキャッシュから機密コンテンツの一部を再構築できます。

arXiv LCGuard：マルチエージェントのKVキャッシュセキュリティ

Q: LCGuardはそのチャネルをどのように閉じますか？

フレームワークは異なるセキュリティレベル（セキュリティドメイン）のKVキャッシュ領域間に暗号化分離を追加します。キャッシュは同一ドメイン内で共有できますが、ドメイン境界を越えることはできません。さらに、アテンションプロービングの試みが出力を生成する前にそれを検知してブロックするランタイム検出器も追加されます。

LCGuardは、効率化のためにKVキャッシュを共有するマルチエージェントシステムにおけるデータ漏洩を防ぐための新しいフレームワークです。IBM ResearchとMITの研究者がSadie Asifの指揮のもとで発表した研究は、「潜在的通信ガード」アプローチの最初の正式なモデルを提示しており、複数のエージェントが共有メモリを通じてコンテキストを共有する本番エージェントRAGシステムに適用可能です。

arXivプレプリントLCGuardは2026年5月22日に公開され、マルチエージェントLLMシステムにおける共有KVキャッシュを保護するための最初の正式なフレームワークを提案しています。これはIBM ResearchとMITの共同研究の成果で、Sadie Asifが指揮しています。著者たちは過去数ヶ月で本番エンタープライズエージェントRAGシステムに現れた脆弱性を文書化し、既存のインフラを中断することなく適用できる具体的な解決策を提案しています。

共有KVキャッシュとは何ですか、なぜそれを使うのですか？

古典的なLLMワークフローでは、各APIコールはプロンプト用に新しいKVキャッシュを生成します——つまり推論はアトミックであり、コールをまたいで持続するステートがありません。エンタープライズのマルチエージェントシステムでは、このモデルはコストがかかります。5つのエージェントが独立して同じ機密PDFを処理する場合、それぞれが同じKVキャッシュをゼロから再構築することになり、5倍のGPUメモリと5倍のコンピュートを消費します。

提供元がますます実装している最適化が共有KVキャッシュです。PDFを一度処理してKVキャッシュ（約200MBのGPUメモリを使用）を生成し、すべてのエージェントがそのキャッシュへのポインタを受け取ります。各エージェントの推論は事前に入力された状態から始まり、固有のプロンプトサフィックスを追加するだけです。著者が述べるように、コスト削減は3〜5倍に達し、高ボリュームワークロードにとっては持続可能なデプロイと不可能なデプロイの分岐点となります。

データ漏洩はどのように機能しますか？

KVキャッシュはプレーンテキストではありません——元の文書の意味的情報をエンコードした埋め込みベクトルです。しかしこれらのベクトルは不可逆変換されているわけではありません。アテンションメカニズムは、著者が「アテンションプロービング」と呼ぶ戦略を通じて、それらから重要な情報を引き出すことができます。

具体的な攻撃：エージェントBは共有KVキャッシュへの正当なアクセス権を持っています（たとえば、関連する文書を処理しているため）。エージェントBはアテンション層5〜15を通じて特定のKVキャッシュ領域を標的にする特定のプロンプトを作成し、元のPDF内の個別の機密エンティティ——クライアント名・契約番号・金額——を埋め込みから再構築できます。著者たちは再構築が完全ではないものの、名前付きエンティティに対して60〜80%の正確な再現率を達成することを実証しています。

この攻撃ベクトルが重大なのは、エンタープライズユーザーが通常「エージェントは自分のプロンプトにのみアクセスできる」と信じているからです。現実には、エージェントはセキュリティ境界を越えて共有された文書全体のKVキャッシュにアクセスできます——これはいかなる本番APIドキュメントにも記載されていませんでした。

LCGuardはそのチャネルをどのように閉じますか？

LCGuardは2つの防衛ラインを追加します。

第1防衛ライン——暗号化分離： 各KVキャッシュは、文書のセキュリティドメイン出所に依存するキーで暗号化されます。そのドメインに属さないエージェントはキャッシュヒント（存在するか、どのくらいの大きさか）を見ることができますが、使用することはできません——復号化はエージェントが適切なドメイン資格情報を提示した場合にのみ行われます。つまり「財務/機密」ドメインのPDFは、物理的に同じGPUメモリを占有していても、マーケティングエージェントが復号化できないKVキャッシュを持ちます。

第2防衛ライン——ランタイムアテンションプローブ検出器： バックエンドがアテンションパターンをリアルタイムで監視し、不審なパターンを検出します。典型的なプローブは、ターゲットのKVスロットにおけるアテンション変動を最大化する疑似ランダムプロンプト構造を使用します。LCGuardは95%以上の精度でこのパターンを検出します（著者たちは50,000件の正当なクエリでの低い誤検知率を文書化しています）。

実装オーバーヘッドと互換性

LCGuardは推論エンジン（vLLM・TGI・SGLang）のアテンション層の変更を必要とします。著者たちはvLLM向けのリファレンス実装をオープンにしています。スループットのオーバーヘッドは最悪シナリオ（すべてのキャッシュが暗号化）で8〜12%、典型的シナリオ（暗号化キャッシュと平文キャッシュ領域の混合）で3〜5%です。コンプライアンス要件を満たさなければならないエンタープライズテナントにとっては許容できるコストです。

研究はLCGuardがセキュリティドメイン間で共有KVキャッシュを使用するエンタープライズデプロイメントのデフォルト有効設定となるべきだという勧告で締めくくっています。この防御がなければ、組織は知らずのうちに自組織のデータ分類ポリシーに違反することになります。

arXiv:2605.22786：LCGuardがマルチエージェントシステムにおける共有KVキャッシュをエージェント間のデータ漏洩から保護します

共有KVキャッシュとは何ですか、なぜそれを使うのですか？

データ漏洩はどのように機能しますか？

LCGuardはそのチャネルをどのように閉じますか？

実装オーバーヘッドと互換性

よくある質問

出典

関連ニュース