SIREN:通过读取模型内部状态而非过滤输出的LLM安全新方法
为什么重要
SIREN是一种新型大型语言模型安全机制,利用模型内部神经网络状态检测有害内容,而非过滤输出,参数量比现有守卫模型少250倍。
题为**《从内部实现LLM安全:利用内部表示检测有害内容》的新论文于2026年4月20日发布于ArXiv(ID: 2604.18519),提出了SIREN系统。作者Difan Jiao、Yilun Liu、Ye Yuan、Zhenwei Tang、Linfeng Du、Haolun Wu和Ashton Anderson提出从经典输出过滤转向基于模型内部状态的检测**,这一方法可能从根本上改变开源LLM实施安全机制的方式。
什么是输出过滤,SIREN为何放弃它?
当今大多数安全机制——包括Claude、GPT和Llama——依赖于输出过滤。模型生成文本后,独立的「守卫模型」审查该文本并决定是否放行、审查或触发拒绝消息。此类守卫模型通常体积庞大、计算成本高,且在模型已耗费精力生成内容之后才做出反应。
SIREN改变了视角。它不是只分析最终令牌或输出,而是使用线性探测(linear probing)在模型多层中寻找「安全神经元」。这是对隐藏状态(hidden states)和激活——模型处理输入时产生的内部数值向量——的分析。这些信息在输出任何词之前就已存在,因此SIREN可以更早、更精确地做出反应。
分层自适应策略的具体工作原理是什么?
SIREN采用自适应分层加权策略:不是对所有层一视同仁,而是学习在最终有害性判断中对哪些层赋予更高权重。线性探测是在每一层训练一个小型线性分类器,评估该层的表示是「安全」还是「危险」的技术。作者表明,安全相关特征「分布在各内部层中」——即它们不仅在末端,而是散布在整个处理路径上。
结果令人印象深刻。SIREN「以仅250分之一的训练参数量显著超越当前最先进的开源守卫模型」。它在训练中未见过的基准上也表现出更好的泛化性,而这历来是安全分类器的薄弱环节。由于体积小,推理速度比生成式守卫模型快得多——后者自身必须「写出」解释某内容有害原因的说明。
这对谁重要,有哪些局限?
从用户角度看,主要优势是减少误拒(false refusals)——即守卫将合法请求分类为有害而拒绝。由于SIREN读取内部状态,能更好地区分真实意图与表面触发词(例如,网络安全教育背景下的「攻击」一词不会自动触发屏蔽)。
主要局限显而易见:SIREN需要白盒访问模型(即读取内部激活的能力)。这使其不适用于OpenAI或Anthropic等封闭式商业API,因为这些API的内部状态无法访问。另一方面,这恰恰使SIREN对开源生态系统(Llama、Qwen、Mistral、DeepSeek)极具吸引力——在这些系统中,隐藏状态完全可访问,开发者通常需要廉价的本地安全基础设施,无需将内容发送到外部守卫服务。
本文由人工智能基于一手来源生成。