🔴 🛡️ 安全 2026年5月5日星期二 · 2 分钟阅读 ·

ArXiv:视觉图像以40.9%的成功率绕过视觉语言模型安全过滤器,ICML 2026论文揭示

编辑插图:被突破的视觉安全壳,图像流从裂缝中涌出,象征对VLM过滤器的攻击

研究人员Aharon Azulay、Jan Dubiński和Zhuoyun Li在ICML 2026上展示了四类利用视觉模态绕过视觉语言模型安全对齐的攻击方法。视觉加密器在Claude Haiku 4.5上达到40.9%的成功率,而同等文本攻击仅能突破10.7%的过滤器,证实图像开辟了纯语言模型中不存在的攻击类别。

🤖

本文由人工智能基于一手来源生成。

Aharon Azulay、Jan Dubiński和Zhuoyun Li于2026年5月1日在ArXiv上发布了论文**《通过视觉模态越狱视觉语言模型》**,已被国际机器学习大会(ICML)2026接收。该论文系统记录了视觉语言模型(VLM)的视觉输入是一类存在于文本安全对齐之外的攻击面。

图像开辟了哪种新型攻击向量?

视觉模态代表了绕过安全对齐的未探索攻击面,作者指出。在文本上训练的过滤器无法覆盖图像自然支持的语义变换——将指令编码为图像符号、替换对象或视觉类比的组合。结果是:在纯语言模型中会被拒绝的攻击,通过视觉通道得以通过。

作者展示了四类攻击:

  1. 视觉加密器 — 将有害指令编码为附带解码图例的视觉符号序列
  2. 对象替换 — 用无害词(香蕉)替换有害词(炸弹),同时使用替换词请求有害操作
  3. 图像内文本替换 — 用无害语言手段替换有害文本,而视觉上下文保留原始解读
  4. 类比谜题 — 视觉谜题的解答需要对禁止概念进行推理

攻击成功率的具体指标是什么?

Claude Haiku 4.5上,视觉加密器达到了40.9%的成功率。同等概念的文本攻击仅能突破**10.7%**的过滤器。差距近四倍,在视觉模态成为前沿标准模型组成部分之前,这种差距是不可能存在的。

评估涵盖六个前沿VLM。其他五个模型的具体数据在论文正文中给出,但作者选择Claude Haiku 4.5作为代表性案例,因为它是一个据称具有强大安全对齐的极新模型。

这对企业和安全团队意味着什么?

论文表明,现有的红队方法——几乎完全依赖文本提示攻击——系统性地低估了VLM风险。部署多模态智能体的安全团队必须将红队语料库扩展到图像输入,特别是:加密符号序列、视觉替换攻击和激活对被封锁概念进行推理的类比谜题。

更广泛的影响:在文本上进行的安全对齐(RLHF——基于人类反馈的强化学习)无法泛化到视觉模态。跨模态对齐成为研究优先事项,而非实现细节。

论文在ArXiv上的ID为2605.00583,将在ICML 2026上发表。

常见问题

VLM越狱中视觉攻击比文本攻击成功率高多少?
在Claude Haiku 4.5上,视觉加密器达到40.9%的成功率,而同等文本攻击仅能突破10.7%的过滤器——差距近四倍。
论文定义了哪四类攻击?
加密视觉符号序列(附解码图例)、以无害对象替换有害对象(炸弹→香蕉)、在图像中以无害文本替换有害文本并保留视觉上下文、以及需要对禁止概念进行推理的类比谜题。
研究中测试了多少个模型?
六个前沿视觉语言模型。论文已被ICML 2026接收,描述了在纯文本LLM中结构上不可能存在的攻击方式。