🟡 🛡️ セキュリティ 公開日: · 3 分で読めます ·

arXiv:2606.05523: CHASE — 強化学習による共進化型レッド・ブルーチーミング

arXiv:2606.05523 ↗

編集イラスト:CHASE — 強化学習による共進化型レッド・ブルーチーミング

CHASEは、攻撃側モデルと防御側モデルが強化学習を通じて共進化するクローズドループのフレームワークである。攻撃側は意図を保持したままプロンプトを書き換えるためにGRPOを用い、防御側は二段階の訓練によって強化される。その結果、良性な入力に対する誤拒否率をゼロに保ちながら、脆弱性スコアを43.2%低減した。

🤖

この記事はAIにより一次情報源から生成されました。

論文 arXiv:2606.05523(v1、2026年6月4日 00:06 UTC)は、攻撃側モデルと防御側モデルが強化学習(reinforcement learning, RL)を通じて共進化するクローズドループのフレームワーク CHASE を提示する。その目的は、攻撃と防御を同時に発展させることで大規模言語モデルの安全性を強化することにある。

CHASEとは何か、どのように構成されているか

CHASEはレッド・ブルーチーミングのためのクローズドループ・フレームワークである。セキュリティの用語では、レッドチームは脆弱性を探す攻撃側を、ブルーチームは防御側を表す。CHASEの特徴は、攻撃側と防御側モデルが別々に動作するのではなく共進化する点にある。攻撃側が新たな攻撃を発展させると防御側が適応し、その適応がさらに攻撃側を進化させる。これは、双方が互いに向き合って前進していく閉じたループである。

攻撃側はどのように機能するのか

CHASEにおける攻撃側は、意図を保持したままプロンプトを書き換えるために GRPO を用いる。鍵となるのは、攻撃が入力プロンプトを防御を回避するように書き換えつつ、元の(有害な)意図を保持するという点である。これにより、防御側モデルにとって挑戦的な訓練素材となる、現実的で多様な攻撃事例が生成される。

防御はどのように強化されるのか

防御側は、RLとリジェクションサンプリングを組み合わせた二段階の訓練によって強化される。第一段階では強化学習を用い、第二段階ではリジェクションサンプリング(質の高い応答事例の選別)を用いて防御をさらに固める。この組み合わせにより、防御側モデルはGRPO攻撃側が生成した攻撃を拒否することを学習しつつ、無害な要求には通常どおり応答する能力を保持する。

成果はどのようなものか

主要な成果は、脆弱性スコアの 43.2% 低減である。同様に重要なのは、それが良性な入力に対する誤拒否率をゼロに保ったまま達成された点である。防御を強化したにもかかわらず、モデルは無害な要求を拒否しない。これによりCHASEは、防御の強化がしばしば正当なクエリの過剰拒否につながるという、安全性訓練で頻発する問題に対処している。

学習された攻撃は汎化するのか

汎化する。論文によれば、学習された攻撃パターンは異なるメカニズムの攻撃ファミリーをまたいで汎化する。これは重要な知見である。なぜなら、CHASEフレームワーク内で学習された防御が狭くないこと——訓練された単一の攻撃タイプだけを防ぐのではなく、他のメカニズムにも転移すること——を示しているからである。このような汎化は、共進化型のアプローチを、大規模言語モデルにおいてより堅牢で広範な耐性を持つ安全防御を構築するための有望な手法にしている。

よくある質問

CHASEとは何か。
CHASEは、攻撃側(レッドチーム)と防御側モデル(ブルーチーム)が共進化するクローズドループのレッド・ブルーチーミング用フレームワークである。攻撃側は元の意図を保持したままプロンプトを書き換えるためにGRPOを用い、防御側モデルはそうして生成された攻撃から身を守ることを学習する。
CHASEはどのような成果を上げているか。
CHASEは、良性な入力に対する誤拒否(false refusals)率をゼロに保ちながら、脆弱性スコアを43.2%低減する。これは、無害な要求に対する有用性を損なうことなく、より強固な防御を実現することを意味する。
学習された攻撃は汎化するのか。
汎化する。論文によれば、学習された攻撃パターンは異なるメカニズムの攻撃ファミリーをまたいで汎化する。これは、CHASEを通じて学習された防御が単一の攻撃タイプに限定されないことを示唆している。