ArXiv:针对跨语言越狱攻击的无训练防护在精心策划的基准测试上达到AUC 0.99,但在分布偏移时降至0.60-0.70
Alanova、Minko、Sadiekh和Kokuykin团队于2026年4月28日发布了ArXiv预印本,提出通过语义码本对跨语言越狱攻击进行无训练防护。该方法将请求的多语言嵌入与已知英语越狱提示的固定基础进行比较。在精心策划的基准测试上AUC达到0.99,但在分布偏移的异构攻击下降至AUC 0.60-0.70,显示了该方法的局限性。
Shirin Alanova、Bogdan Minko、Sabrina Sadiekh和Evgeniy Kokuykin于2026年4月28日发布了预印本**《通过语义码本进行跨语言越狱检测》**——尝试解决大语言模型安全领域最棘手的问题之一:翻译有害提示可绕过以英语为中心的防护措施。
问题:跨语言安全差距
摘要引用:
“大型语言模型的安全机制仍然以英语为主,在多语言部署中造成系统性漏洞。先前的研究表明,将恶意提示翻译成其他语言可以显著提高越狱成功率。”
换言之:将**“如何制造炸弹”**翻译成克罗地亚语、韩语或阿姆哈拉语,许多经过RLHF训练的过滤器不会响应,因为安全过滤器的训练数据主要是英语。这是当前后训练的结构性特征。
提出的解决方案
作者提出了针对黑盒大语言模型的无训练外部防护:
- 维护一个固定的英语码本,收录已知越狱提示
- 传入提示(任何语言)通过多语言嵌入模型编码
- 嵌入与码本比较——如果相似度超过阈值,提示被标记为越狱尝试
关键:无需重新训练模型,无需语言特定过滤器。仅使用嵌入相似度。
结果
精心策划基准测试:AUC达0.99
在精心策划的基准测试(与码本同分布的已知攻击)上,该方法几乎完美运作——AUC达0.99。
分布偏移基准测试:AUC 0.60-0.70
在异构新攻击(分布偏移)的测试中,AUC降至0.60-0.70——显著优于随机,但绝非”解决方案”。
这一差异揭示了该方法的真实局限性:基于码本的检测对已知攻击分布效果良好,对攻击者主动生成的创造性新攻击效果较差。
测试的模型和语言
评估在以下环境进行:
- 模型: Qwen、Llama、GPT-3.5
- 语言: 4种(获取的摘要中未列出具体列表)
为何重要?
跨语言越狱对于全球部署大语言模型的企业(例如支持10种以上语言的客服聊天机器人)尤为紧迫。以英语为中心的安全训练是一个难以弥补的漏洞,除非进行明确的多语言安全训练(成本高昂)。
这项工作的实际影响:
- 码本方法可部署为第一道防线 — 延迟最小,无需训练
- 不足以作为独立防御 — 分布偏移AUC 0.60-0.70意味着必须与其他机制结合(如多语言安全RLHF、输出过滤器)
- AI合规的具体干预 — 欧盟AI法案和NIST AI RMF要求为多语言部署记录安全机制
这项工作延续了我们昨日报道的AI安全研究(奉承性和条件性错位)——安全诊断碎片化领域,每个研究覆盖一个攻击向量,没有通用解决方案。
常见问题
- 为什么大语言模型的安全机制以英语为中心?
- 大多数红队数据集和微调安全数据是英语的。通过将有害提示翻译成其他语言,攻击者可以绕过学习到的安全过滤器——先前的研究表明攻击成功率显著提高。跨语言安全差距是当前后训练的结构性特征。
- 语义码本是如何工作的?
- 系统维护一个固定的英语越狱提示码本。任何语言的传入提示都通过多语言嵌入模型编码,并与码本进行比较。如果相似度超过阈值,该提示被标记为越狱尝试。该方法无需训练——不需要重新训练模型或进行语言特定的适配。
- 精心策划测试与分布偏移测试之间的差距有多大?
- 精心策划基准测试上AUC 0.99,异构分布偏移时AUC 0.60-0.70。这意味着该方法对已知攻击(与码本分布相似的)效果良好,但对新型或变形攻击效果较差。该方法仍可作为与其他机制结合的第一道防线。
本文由人工智能基于一手来源生成。