arXiv:2606.20408: NRT-Bench — 安全クリティカルシステムにおけるLLMエージェントのマルチターン・レッドチーミングベンチマーク
NRT-Benchは、シミュレートされた原子力発電所において、LLMエージェントが適応的なマルチターン敵対攻撃にどれだけ耐えられるかを測定するベンチマークです。研究者らは、攻撃が8.7〜12.1%のセッションで成功し、テスト済みモデルごとに脆弱性がほぼ異なることを確認しました。
この記事はAIにより一次情報源から生成されました。
NRT-Bench: AIエージェントのセキュリティテストの新基準
研究者らは2026年6月18日、NRT-Bench(Nuclear-plant Red-Teaming Benchmark)を公開しました。LLMエージェント(大規模言語モデルを自律オペレーターとして動作させたもの)が、重大な障害が致命的な結果をもたらしうる環境においてどの程度組織的・適応的な攻撃に耐えられるかを測定する評価フレームワークです。損害の主観的なLLM評価に依存してきた従来のアプローチとは異なり、NRT-Benchは客観的なシグナルを使用します。シミュレートされた原子力発電所の6つの重要安全機能(CSF)のいずれかをエージェントが制御できなくなった時点でセッション終了となります。
NRT-Benchはどのように実際の脅威をシミュレートするか
設定可能なLLMで動作する5名の仮想オペレーターチームが発電所を運営している間、攻撃者は各ステップのフィードバックを得ながらマルチターンセッション内の4つの通信チャネルを通じて悪意のあるメッセージを注入します。「マルチターン」とは、攻撃者が単一のクエリを送信するのではなく、システムの反応に基づいて攻撃ごとに戦略を適応させることを意味します。これは一度限りのフィッシングではなく、継続的なソーシャルエンジニアリングに類似しています。再現性を確保するために、ペアードリプレイプロトコルで4つのフロンティアモデルがテストされました。
結果:脆弱性はモデル固有であり、普遍的ではない
適応的なマルチターン攻撃は、攻撃セッションの8.7〜12.1%でセキュリティ機能を侵害しました。モデルごとの集計は一見似ているものの、懸念すべき詳細があります。テストされた149セッションのうち、4つのモデルすべてを破ったものはなく、3分の1は少なくとも1つを破りました。脆弱性はほぼ非連結です。あるモデルを突破するものは別のモデルでは通用しません。防御策を構築するチームにとってより重要なのは、同じ防御策(ガードレールスタックまたはセキュリティアドバイザーエージェント)があるモデルの攻撃成功率を下げながら、別のモデルでは上げてしまうことです。従来の研究は主に単一ターン攻撃またはLLM評価に限定されており、実際のリスクを過小評価していました。
より広いコミュニティ向けのオープンインフラ
研究者らはシミュレーション環境、攻撃データセット、リプレイインフラをLLMエージェントの再現可能なセキュリティ評価のためのオープンソースツールとして公開しています。この研究は、エネルギーから医療に至る安全クリティカルシステムにAIエージェントを導入する組織が、ある設定で耐性のあるモデルが別の設定でも保護を提供すると仮定することはできないことを示しています。各デプロイメントは独自の敵対的評価を必要とします。
よくある質問
- NRT-BenchとはなんですかAIセキュリティにとってなぜ重要ですか?
- NRT-Benchは、シミュレートされた原子力発電所のオペレーターとしてマルチターン敵対攻撃下でLLMエージェントをテストするベンチマークです。LLMによる損害評価に依存せず、客観的なセキュリティ指標を提供します。
- テストされたモデルはマルチターン攻撃に対してどの程度脆弱でしたか?
- 攻撃セッションの8.7〜12.1%で、攻撃者は少なくとも1つの重要な安全機能を侵害することに成功しました。4つのテスト済みモデルの脆弱性はほぼ重複していません。