arXiv:2606.05523:CHASE——通过强化学习实现的红蓝队协同进化
CHASE 是一个闭环框架,其中攻击模型与防御模型通过强化学习协同进化。攻击方使用 GRPO 在保留意图的前提下改写提示词,防御方则通过两阶段训练得到强化。最终在良性输入上保持零误拒率的同时,将漏洞分数降低了 43.2%。
本文由人工智能基于一手来源生成。
论文 arXiv:2606.05523(v1,2026年6月4日,UTC 00:06)提出了 CHASE,一个攻击模型与防御模型通过强化学习(reinforcement learning,RL)协同进化的闭环框架。其目标是通过同时发展攻击与防御来增强大语言模型的安全性。
什么是 CHASE,它的结构如何?
CHASE 是一个用于红蓝队对抗的闭环框架。在安全术语中,红队代表寻找漏洞的攻击方,蓝队代表防御方。CHASE 的特别之处在于,攻击模型与防御模型并非各自独立运作,而是协同进化:随着攻击方研发出新的攻击,防御方随之适应,而这种适应又反过来迫使攻击方进一步进化。这是一个双方相互推进、彼此对抗的闭环。
攻击方是如何运作的?
CHASE 中的攻击方使用 GRPO 在保留意图的前提下改写提示词。关键在于,攻击会改写输入提示词以绕过防御,但同时保留原始的(有害的)意图。由此生成出真实而多样的攻击样本,为防御模型提供具有挑战性的训练素材。
防御是如何被强化的?
防御方通过结合 RL 与拒绝采样(rejection sampling)的两阶段训练得到强化。第一阶段使用强化学习,第二阶段使用拒绝采样——即筛选高质量的回答样本——进一步巩固防御。通过这种组合,防御模型学会拒绝由 GRPO 攻击方生成的攻击,同时保留对无害请求正常作答的能力。
成果如何?
主要成果是将漏洞分数降低了 43.2%。同样重要的是,这一成果是在良性输入上保持零误拒率(false refusals)的前提下取得的——尽管防御得到了加强,模型仍不会拒绝无害的请求。由此,CHASE 解决了安全训练中一个常见问题:更强的防御往往导致对合法查询的过度拒绝。
学到的攻击是否具有泛化能力?
是的。根据论文,学到的攻击模式能够在不同的机制族攻击之间泛化。这是一个重要发现,因为它表明在 CHASE 框架内习得的防御并不狭隘——它不仅能防御所训练的单一类型攻击,还能迁移到其他机制上。这种泛化能力使得协同进化方法在为大语言模型构建更稳健、适应性更广的安全防御方面前景可观。
常见问题
- 什么是 CHASE?
- CHASE 是一个用于红蓝队对抗的闭环框架,其中攻击方(红队)与防御模型(蓝队)协同进化。攻击方使用 GRPO 在保留原始意图的前提下改写提示词,防御模型则学习抵御由此生成的攻击。
- CHASE 取得了怎样的成果?
- CHASE 将漏洞分数降低了 43.2%,同时在良性输入上保持零误拒率(false refusals)。这意味着在不损失对无害请求可用性的前提下获得了更强的防御能力。
- 学到的攻击是否具有泛化能力?
- 是的。根据论文,学到的攻击模式能够在不同的机制族攻击之间泛化,这表明通过 CHASE 习得的防御并不局限于单一类型的攻击。