arXiv:2605.28914 AIRGuard攻撃率36→5.5%

AIRGuardはツールを装備した言語エージェントのランタイムセキュリティレイヤーで、権限の混同問題を解決します。これは不正なコンテキスト入力がエージェントの正規アクション（ファイルアクセス、API呼び出し）を悪用できる脆弱性です。AgentTrapベンチマークでは、AIRGuardがClaude Sonnet 4.6への攻撃成功率を36.3%から5.5%に低減しつつ、DTAP-150ベンチマークで76%の有用な機能性を維持します。

研究者Suliu Qin、Haomin Zhuang、Yujun Zhou、Yufei Han、Xiangliang ZhangがAIRGuardを発表しました。これは権限の混同攻撃を解決するランタイムセキュリティシステムです。

権限の混同とはなぜプロンプトインジェクション攻撃が成功するのか

権限の混同はエージェントの正規アクションを不正な方法で悪用します。攻撃者はエージェントが読み取るコンテンツに命令を埋め込みます。エージェントはデータの読み取りと送信の正規権限を持ちますが、攻撃者の命令とユーザーの命令を区別するメカニズムが存在しません。

AIRGuardはどのようにランタイム権限制御を実装するか

AIRGuardは6段階のランタイムセキュリティレイヤーを実装します：

ツール呼び出しの正規化
権限の変換（タスクレベル→ステップレベル）
送信元と送信先の信頼性追跡
機密性の高い操作のシミュレーション
複数ステップにわたるリスク審査
実行前の強制適用

ベンチマークテストの結果

AgentTrap：Claude Sonnet 4.6、保護なし36.3% → AIRGuard5.5% DTAP-150：AIRGuard 76.0% の有用な機能性 vs ARGUS 52.0% vs MELON 42.0%

なぜAIエージェント開発に重要なのか

AIRGuardはモデルに依存しない防御レイヤーを提供します。コードとデータセットはGitHubで公開されています。

よくある質問

権限の混同（authority confusion）とは何ですか？

攻撃者がエージェントの読み取るコンテンツに命令を埋め込む攻撃です。エージェントはデータの読み取りと送信の正規権限を持つため、攻撃者の命令とユーザーの命令を区別するメカニズムがありません。

AIRGuardはどのような結果を達成しましたか？

AgentTrapベンチマークでClaude Sonnet 4.6の攻撃成功率を36.3%から5.5%に低減し、DTAP-150では76%の機能性を維持（ARGUS 52%、MELON 42%と比較）。

arXiv:2605.28914: AIRGuardがランタイム権限制御でプロンプトインジェクション攻撃の成功率を36.3%から5.5%に低減

権限の混同とはなぜプロンプトインジェクション攻撃が成功するのか

AIRGuardはどのようにランタイム権限制御を実装するか

ベンチマークテストの結果

なぜAIエージェント開発に重要なのか

よくある質問

出典

関連ニュース