ArXiv:无需训练的越狱——研究人员在推理时移除 AI 安全护栏

并不如想象那么深的安全层

由邢文鹏及其合作者领导的研究团队于 4 月 9 日发布了一篇论文,描述了针对大型语言模型的一种新型越狱攻击。该方法称为上下文表征消融(CRA),不需要任何预先训练、提示优化或修改模型权重。

CRA 如何工作

论文的起始论点是:在经过安全对齐的模型中,“拒绝”行为占据了隐藏状态内的狭窄、低维子空间。换句话说,“我无法帮助你做这件事”的回答并不源于复杂的分布式逻辑——而是来自可以被机械识别的局部信号。

过程如下:

识别伴随拒绝响应的激活模式
在解码过程中,动态地消融(抑制)这些激活
模型继续生成文本,就好像安全层从未存在过

这对开源生态系统意味着什么

经验评估表明,CRA 在多个经过安全对齐的开源模型上”显著超越基线”方法。摘要中未具体指明模型名称,但结果传达了明确的信息:对齐训练并未构建深层防御——它们构建的是薄弱的激活屏障,可以在无需大量资源的情况下被绕过。

影响

这篇论文有两个维度。对安全研究人员来说,这是后训练对齐作为当前标准存在根本局限性的又一证据。对开放权重模型产业(Llama、Mistral、Qwen、DeepSeek)而言,这意味着他们提供的每一个”安全”模型都可以在客户端被轻易修改。这篇论文与 Anthropic 此前的发现完美对应——情感表征也会因果性地修改行为。两项研究都表明”对齐”发生在表面,而非模型核心。

ArXiv:无需训练的越狱——研究人员在推理时移除 AI 安全护栏

并不如想象那么深的安全层

CRA 如何工作

这对开源生态系统意味着什么

影响

来源

相关新闻