arXiv:2605.04019: 自動化レッドチームエージェントがMeta Llama Scoutに対して85%の成功率を達成、45以上の攻撃と450以上の変換を使用
新論文は、Dreadnode SDK上に構築されたエージェント型レッドチームシステムを発表しています。45以上の攻撃、450以上の変換、130以上のスコアラーを使用してMeta Llama Scoutに対して85%の成功率を達成し、手書きのコードなしにセキュリティテストを数週間から数時間に短縮します。
この記事はAIにより一次情報源から生成されました。
arXivの新論文は、AIモデルの攻撃的なセキュリティテストを完全に自動化するシステムを説明しています。著者のRaja Sekhar Rao Dheekonda、Will Pearce、Nick Landersは、Dreadnode SDK上に構築されたエージェントアプローチがレッドチームの経済性をどのように変えるかを示しています——これまで専門家が数週間かけて行っていたセキュリティテストが、攻撃コードを1行も手書きせずに数時間で完了します。
エージェントはいかにして数週間の手作業を置き換えるか?
セキュリティのコンテキストでのレッドチームとは、専門家が対抗的な例からジェイルブレイクプロンプト、マルチモーダル攻撃まで、モデルの弱点を体系的に探すプロセスです。従来は攻撃を1つずつ手動で組み立て実行するチームが行っていました。
提案されたシステムは代わりに45以上の攻撃、450以上の変換、130以上のスコアラーのカタログを使い、エージェントが自律的に組み合わせます。オペレーターはターミナルユーザーインターフェースを通じて自然言語で目標を設定し、エージェントが攻撃ベクトルを選択し、バリエーションを適用し、結果を評価します。
Llama Scoutへの数字は何を示しているか?
MetaのLlama Scoutモデルへの評価で、エージェントは85%の成功率を達成し、内部スコアラーは最大深刻度を1.0と評価しました。設定した目標から完成したレポートまでのサイクル全体は、同等の規模のテストに従来かかっていた数週間ではなく、時間のオーダーで完了します。
重要な点は、エージェントが人間が開発したコードなしに動作することです。敵対的なワークフロー全体を利用可能なコンポーネントから生成することで、業界で慢性的に不足している専門的なレッドチームエンジニアのボトルネックを解消します。
これはセキュリティチームにとって何を意味するか?
エージェント型フレームワークは、従来は異なるツールに分散していた従来のML敵対的サンプルと生成AI ジェイルブレークの両方を1つの統合システムでカバーしています。新しいモデルを継続的に評価しなければならないエンタープライズのセキュリティチームやAIラボにとって、テスト頻度を大幅に増やせることを意味します。
この研究はSOCアナリストが以前にインシデントのトリアージにAIアシスタントを使い始めたのと同様に、エージェントの自動化をセキュリティの分野に適用する研究の波に位置づけられます。異なる安全フィルターを持つクローズドな商用モデルにどれだけ結果が転移するかという問いは依然として未解決です——Llama ScoutはAPIのみのモデルでは利用できない詳細な計測を可能にするオープンウェイトのターゲットです。
よくある質問
- AIシステムのコンテキストにおけるレッドチームとは何ですか?
- レッドチーム(Red Teaming)はAIシステムのセキュリティ欠陥を実際の攻撃者が悪用する前に発見するための制御された攻撃プロセスで、古典的な敵対的サンプルからジェイルブレイクプロンプトまで幅広い攻撃手法を使います。
- エージェントは手動のレッドチームと何が違いますか?
- オペレーターはターミナルユーザーインターフェースを通じて自然言語で目標を設定し、エージェントが自律的にDreadnodeのカタログから攻撃、変換、スコアラーを組み合わせます。手動のワークフロー構築もカスタムコードも必要ありません。
- 85%の成功率とはどういう意味ですか?
- テストされた攻撃シナリオの85%で、エージェントはMeta Llama Scoutモデルの意図しない動作を誘発することに成功し、システムのスコアラーは最大深刻度を1.0と評価しました。