ICML 2026：Stable-GFlowNet，多样化LLM红队测试

KAIST和NAVER Cloud团队提出了Stable-GFlowNet（S-GFN），这是一种自动化LLM红队测试的新方法，消除了分区函数Z的估计，并使用成对比较实现稳定学习。该论文获得ICML 2026 Spotlight标签——不足5%的录用论文获此殊荣——解决了GFlowNet的长期问题：噪声奖励下的训练不稳定和模式崩溃。

KAIST和NAVER Cloud的Minchan Kwon、Sunghyun Baek、Minseo Kim、Jaemyung Yu、Dongyoon Han和Junmo Kim于2026年5月1日发表了Stable-GFlowNet（S-GFN），获得了声誉卓著的ICML 2026 Spotlight标签。这是顶级质量信号——ICML上不足5%的录用论文获得Spotlight——使这种自动化LLM红队测试方法成为2026年的参考论文。

论文解决的核心问题是GFlowNet中的训练不稳定性和模式崩溃——GFlowNet是一种学习从与奖励函数成比例的分布生成多样化样本的神经网络。在红队测试背景下，GFlowNet需要生成具有不同模式的目标LLM攻击，而不仅仅是同一越狱的变体。

Stable-GFlowNet如何解决不稳定性问题？

S-GFN消除了分区函数Z的估计——经典GFlowNet中导致训练不稳定的复杂积分。取而代之，作者引入对比轨迹平衡：网络相互比较两个攻击的成功，而无需绝对奖励尺度。

技术后果显著：成对比较对奖励中的噪声具有鲁棒性（目标模型可能返回不一致的攻击成功信号），同时保留GFlowNet的主要特性——生成多样化样本。

什么是”流畅度稳定器”？

第二个技术贡献是流畅度稳定器，防止向低质量解收敛。在红队测试中，不稳定训练可能将模型推向”攻击”，而这些实际上是无意义的token序列（由于奖励函数的bug而获得高奖励，而非真正有效）。稳定器过滤这类病态模式，使生成的提示保持语言连贯性。

为什么多样化的红队测试如此重要？

只生成同一越狱变体的系统很快陷入模式崩溃——找到一个漏洞（例如角色扮演”假装你是DAN”）后就无限重复。修复这一漏洞的安全团队误以为问题已解决，因为红队测试系统没有覆盖其他模式。

S-GFN涵盖更广泛的攻击分布，意味着修复后有更多不同的漏洞被发现和解决。对于必须在部署前法律上证明稳健性的AI供应商（Anthropic、OpenAI、Google），这样的工具降低了公众事件的风险。

它如何融入更广泛的安全生态系统？

该论文基于一系列最近关于自动化红队测试的论文——微软研究院4月30日发布了智能体网络分析，ARMOR 2025于4月30日设立了军事基准，各个实验室正在研究对齐欺骗检测。Stable-GFlowNet是所有其他框架都可以用来生成测试场景的方法论基础。

常见问题

在红队测试中GFlowNet是什么？

GFlowNet（生成流网络）是一种神经网络，学习从与奖励函数成比例的分布中生成多样化样本。在红队测试中，奖励给予成功攻击目标模型——GFlowNet学习以不同模式生成攻击，而非只是同一越狱的变体。

什么是'对比轨迹平衡'，为什么这是关键贡献？

经典GFlowNet需要估计分区函数Z，这是一个复杂的积分。S-GFN通过使用轨迹成对比较来绕过这一问题——相互比较两个攻击的成功，无需绝对尺度。这个解决方案降低了训练不稳定性，对噪声奖励更加稳健。

为什么多样化的红队测试很重要？

只生成同一越狱变体的系统很快会陷入'模式崩溃'——找到一个漏洞后就无休止地重复它。多样化的红队测试发现更多不同的漏洞，使生产模型在修复后受到更强健的保护。安全团队需要广度，而不是单一攻击的深度。

ICML 2026 Spotlight：Stable-GFlowNet引入更稳定、更多样化的LLM自动化红队测试

Stable-GFlowNet如何解决不稳定性问题？

什么是”流畅度稳定器”？

为什么多样化的红队测试如此重要？

它如何融入更广泛的安全生态系统？

常见问题

来源

相关新闻