HARC：通过耦合有害性方向实现抗越狱的大语言模型

研究人员发现了越狱攻击在模型内部表示层面得以成功的精确机制，并开发了HARC微调方法——显式耦合「有害性方向」与「拒绝方向」——在六种测试方法中实现了最强的鲁棒性、能力与可用性平衡。

研究人员Shei Pern Chua和Fangzhao Wu于2026年7月1日发表了一篇论文，揭示了越狱攻击绕过大型语言模型安全对齐的精确机制——并以一种名为HARC的新型微调方法的形式提出了具体解决方案。

越狱攻击究竟为何能够成功？

此前的理解主要是现象层面的：我们知道某些查询措辞会「欺骗」模型生成有害内容，但网络内部的机制尚不清晰。HARC研究通过可解释性方法阐明了这一机制。

在已对齐的大语言模型中，内部表示空间中存在（至少）两个独立的「方向」：有害性方向（编码内容的危险程度）和拒绝方向（编码模型是否会拒绝请求）。关键发现是：越狱攻击通过抑制其中一个方向来实现——不必同时抑制两者。仅抑制拒绝方向的攻击就足以让模型生成有害内容，即使有害性方向仍然活跃。

分析还扩展到了响应中的令牌位置，而不仅仅是提示词。研究人员发现，模型可以在生成内容的过程中识别其有害性——即使对提示词的初始分析未能发现问题。这一发现对仅在输入提示词层面运作的安全机制设计具有重要影响。

不同类别的越狱攻击在有害性-拒绝平面上占据可区分的区域——这意味着这些攻击在模型内部空间中存在几何结构，而非杂乱无章的多样性。

HARC：耦合双向的微调方法

HARC不仅提供分析，还给出了具体的微调方案。该方法通过提示词和响应的位置，显式耦合有害性和拒绝的表示——迫使模型将「我察觉到了危险」和「我拒绝生成」作为共同信号反映出来，而非可以独立抑制的两个维度。

结果是：模型对仅针对两个方向之一的攻击具有抵抗力，因为两者现在在表示空间中紧密关联。

与涵盖安全训练主要方法的六种基线方法相比，HARC实现了最强的鲁棒性、能力与可用性平衡——这一优势在训练时和推理时均有体现。

可迁移性与实际应用

特别重要的是，HARC无需针对特定架构进行调整——该方法在五个模型家族的两种规模上进行了测试，无需额外修改即可迁移。这使HARC成为现有微调流水线的实用方案，而不仅仅是实验室发现。

该研究的机制视角还提供了更广泛的价值：它直接映射了安全意识表示在已对齐大语言模型中的组织方式，这对模型可解释性领域而言是独立于安全应用的宝贵贡献。

这项工作发表于行业正在积极寻求不以牺牲模型能力换取安全性的方法之际——HARC证明，通过针对正确的内部表示层面，两个目标可以同时实现。

常见问题

HARC是什么，有何用途？

HARC是一种微调方法，通过显式耦合大语言模型内部有害性和拒绝的表示，使模型能够抵抗试图单独抑制这两个「方向」之一的越狱攻击。

越狱如何绕过安全对齐？

研究表明，越狱攻击通过抑制模型残差流中的「拒绝方向」或「有害性方向」来实现——不必同时抑制两者——从而使模型生成有害内容。

HARC在多少个模型上进行了测试？

HARC在五个不同模型家族的两种规模上进行了评估，该方法无需针对特定架构进行调整，可在模型之间迁移。

HARC：通过耦合有害性与拒绝方向防止越狱攻击的新型微调方法

越狱攻击究竟为何能够成功？

HARC：耦合双向的微调方法

可迁移性与实际应用

常见问题

来源

相关新闻