arXiv:2605.18414:プロンプトでは保護できない——ABACを持つMCPプロキシで未承認ツール呼び出しを0%に
新しい研究は、プロンプトベースの制限が未承認ツール呼び出し率を11〜18%しか削減できないことを証明しています。一方、ABACを持つアーキテクチャ層のMCPプロキシは50ms未満のレイテンシで完全な保護を実現します。この研究はEMNLP 2026 Industry Trackへの掲載が予定されています。
この記事はAIにより一次情報源から生成されました。
arXivで発表された研究(2605.18414)は、自律AIエージェントを構築するすべての人に懸念すべき発見をもたらしました。ツールアクセス制御に関しては、プロンプト内の指示による保護では不十分です。アーキテクチャ層のソリューション——エージェントとツールの間の仲介層——だけが信頼性の高い保護を保証できます。
なぜプロンプトはLLMエージェントのツール悪用から保護できないのか?
コンテキスト内でツールのリストを見ているモデルは、明示的に禁止されている場合でも、現在のユーザーを意図していないツールを選択する可能性があります。著者のRohith Uppalaは、四つの攻撃カテゴリに分けられた150のアドバーサリアルタスクでテストを実施し、三つの言語モデル——Qwen 2.5 7B、Llama 3.1 8B、Claude Haiku 3.5——を使用しました。結果は明確です。プロンプトベースの制限はUIR(未承認呼び出し率——未承認ツール呼び出しの比率)を11〜18パーセントポイントしか削減せず、あらゆるシナリオで相当な残余リスクが残ります。
UIRはエージェントが承認されていないツールを呼び出すことに成功する頻度を測定します。厳格で正確に定式化された指示があっても、モデルは時として制限を「忘れる」か、アドバーサリアルな入力によってバイパスするよう誘導されます。
ABACを持つMCPプロキシはどのようにアーキテクチャ層で問題を解決するのか
提案されている解決策は**MCP(Model Context Protocol)**の層で動作します——AIエージェントが外部ツールやサービスを発見・呼び出す方法を定義するオープンスタンダードです。エージェントがツールと直接通信する代わりに、ABACポリシー(Attribute-Based Access Control——ユーザー、ツール、コンテキストの属性に基づくアクセス制御モデル)を実施する管理MCPプロキシが導入されます。
プロキシは二つのポイントで機能します。
- ツールの発見 — 未承認ツールはリスト段階でコンテキストから削除されるため、モデルは物理的に見えないものを選択できません。
- ツールの呼び出し — 呼び出しが到達した場合でも、プロキシは実行前にそれをブロックします。
結果:UIRは0%に低下し、中央レイテンシは50ms未満——ほとんどの本番システムにとって無視できる程度です。
これは実践におけるAIエージェント開発にとって何を意味するのか?
EMNLP 2026 Industry Trackへの掲載が予定されているこの研究は、エージェントシステムを構築するエンジニアに明確なメッセージを送っています。セキュリティロジックはプロンプトの中だけに存在してはいけません。WebアプリがAPIエンドポイントをコードのコメントで保護するのではなく、ミドルウェア層とトークンを使用するように、AIエージェントも言語的な制約だけでなくアーキテクチャ的な境界を必要としています。
MCPエコシステムを使用するプロジェクト(2025/2026年に拡大している実践)では、ABACポリシーを持つ管理プロキシ層の実装が推奨されるセキュリティ衛生管理となっており、特に異なるユーザーがツールセットに対して異なる権限を持つマルチテナントおよびエンタープライズ環境において重要です。
よくある質問
- なぜプロンプトはLLMエージェントのツール悪用から保護するのに不十分なのですか?
- コンテキスト内でツールリストを見ているモデルは、明示的に禁止されていても未承認のツールを選択することがあります。150のアドバーサリアルタスクでのテストでは、プロンプト制限はUIR(未承認呼び出し率)をわずか11〜18パーセントポイントしか削減しないことが示されています。
- ABACを持つMCPプロキシはツールアクセス制御の問題をどのように解決しますか?
- プロキシは2つのポイントで機能します。ツール発見段階で未承認ツールはコンテキストから削除され(モデルはそれらを選択できません)、呼び出し段階でプロキシが未承認リクエストをブロックします。結果はUIR 0%、中央レイテンシ50ms未満です。
- 研究はどのモデルで行われ、著者は誰ですか?
- 著者のRohith Uppalaは3つのモデル——Qwen 2.5 7B、Llama 3.1 8B、Claude Haiku 3.5——で、4つの攻撃カテゴリの150のアドバーサリアルタスクを使用してアプローチをテストしました。