arXiv:2605.29068 COLAGUARD：潜在护栏+8.24 F1

COLAGUARD是大型语言模型的新型安全护栏系统，通过课程式训练将安全推理从显式文本思维链迁移到连续潜在空间。在八个安全数据集上，该系统相比Llama Guard 3提升8.24个宏F1分，生成令牌减少22.4倍，推理速度比GuardReasoner基线快12.9倍。

研究人员Siddharth Sai、Xiaofei Wen和Muhao Chen提出了COLAGUARD——大型语言模型安全护栏的新方法，解决了安全鲁棒性与计算效率之间的根本矛盾。

为何现有护栏要么慢要么不精确？

LLM（大型语言模型）的当前安全护栏分为两类：快速但精度较低的系统（如Llama Guard 3，给出简短分类响应），以及更精确但更慢的系统（如GuardReasoner，以文本形式生成显式的多步推理链）。

问题在于：显式推理护栏为每个输入生成数百到数千个安全推理令牌，使其在高流量生产部署中计算成本过高。

COLAGUARD（基于课程的连续潜在护栏）通过课程式训练（逐步增加训练样本难度）将多步安全推理迁移到连续潜在空间来解决这一权衡。

COLAGUARD不生成文本解释，而是传播隐藏状态进行推理。安全知识编码为潜在表示，在检测到潜在有害内容时激活，直接产生分类结果而无需显式文本。

在涵盖提示和响应审核十种场景的八个安全数据集上的评估显示：

作者强调，COLAGUARD在大幅降低计算负担的同时保持了相当的安全覆盖率，否定了高精度护栏必然昂贵的假设。

COLAGUARD表明护栏的鲁棒性和效率并非相互对立的目标。潜在推理（将逻辑步骤编码在模型隐藏激活中而非显式令牌中）为安全系统开辟了新路径，可在不显著影响延迟或成本的情况下跟上LLM生产的高流量。

对于在关键系统中部署LLM的开发团队，本研究提供了一条用潜在替代方案替换昂贵的显式推理护栏而不损失安全覆盖的潜在路径。

常见问题

COLAGUARD是什么，与Llama Guard 3等标准护栏有何不同？

COLAGUARD通过课程式训练将多步安全推理迁移到连续潜在空间。与Llama Guard 3等生成文本解释的显式护栏模型不同，COLAGUARD无需显式文本生成即可传播隐藏状态，使其更快更高效。

COLAGUARD比现有LLM安全解决方案好多少？

COLAGUARD比Llama Guard 3高出8.24个宏F1分，令牌使用量减少22.4倍，推理速度比GuardReasoner基线快12.9倍，同时在八个评估数据集上保持相当的安全覆盖率。

COLAGUARD在哪些场景下进行了评估？

评估在涵盖十种不同审核场景（从提示到模型响应）的八个安全数据集上进行。测试包括与Llama Guard 3和GuardReasoner系统的对比。