ArXiv ACIArena:AI エージェントチェーンに対するプロンプトインジェクション攻撃の初のベンチマーク

プロンプトインジェクション攻撃の新しいタイプ

マルチエージェントシステム(LangGraph、AutoGen、CrewAI、OpenAI Swarm)は、複数の AI エージェントの調整を必要とするタスクでますます人気が高まっています。しかし、他のエージェントと通信する各エージェントは新しい攻撃面を表しており、4 月 10 日に発表された新しい論文によると、この面は危険なほど研究が不足しています。

An 氏が率いるチームは ACIArena を発表しました。これは、エージェントカスケーディングインジェクション(ACI) に対する初の体系的ベンチマークです。これは以下の攻撃ファミリーです:

攻撃者はシステムの 1 つのコンポーネント(例えば、最初のエージェントが読み取るドキュメント)に悪意のあるプロンプトを挿入する
最初のエージェントは入力を処理し、「処理された」結果を次のエージェントに渡す
悪意のあるコンテンツは、正当なシステム内通信として「提示」される
後続のエージェントは、侵害されたデータを信頼できるものとして扱う
誰かが危険なアクションを実行するまで、チェーンは続く

ベンチマークに含まれるもの

ACIArena は 6 つのマルチエージェント実装にわたる 1,356 のテストケースをカバーしています。テストケースは以下をカバーします:

さまざまな入力ベクトル(ドキュメント、ウェブページ、API 応答)
さまざまなエージェントトポロジ(順次、並列、階層的)
さまざまな最終アクションのタイプ(ファイルの読み取り、コードの書き込み、メールの送信、シェルコマンドの実行)

なぜこれが重要なのか

現在のほとんどのセキュリティ研究は、シングルエージェントシナリオ(ユーザーが 1 つのモデルと直接対話する)に焦点を当てています。しかし、実際の本番デプロイメントは、1 つのエージェントが別のエージェントの結果を信頼するエージェントチェーンにますます依存しています。ACIArena は、この「エージェント間の信頼」がいかに弱いかを正式に測定します。

すでに LangGraph と AutoGen を使用している開発チームにとって、このベンチマークは本番デプロイメント前のセキュリティ評価の必須部分となるべきです。これまでベンチマークがなかったことは、攻撃がインシデントの後にしか発見されなかったことを意味していました。

ArXiv ACIArena:AI エージェントチェーンに対するプロンプトインジェクション攻撃の初のベンチマーク

プロンプトインジェクション攻撃の新しいタイプ

ベンチマークに含まれるもの

なぜこれが重要なのか

出典

関連ニュース