ICML 2026：图像以40.9%成功率突破VLM安全过滤器

研究人员Aharon Azulay、Jan Dubiński和Zhuoyun Li在ICML 2026上展示了四类利用视觉模态绕过视觉语言模型安全对齐的攻击方法。视觉加密器在Claude Haiku 4.5上达到40.9%的成功率，而同等文本攻击仅能突破10.7%的过滤器，证实图像开辟了纯语言模型中不存在的攻击类别。

Aharon Azulay、Jan Dubiński和Zhuoyun Li于2026年5月1日在ArXiv上发布了论文**《通过视觉模态越狱视觉语言模型》**，已被国际机器学习大会（ICML）2026接收。该论文系统记录了视觉语言模型（VLM）的视觉输入是一类存在于文本安全对齐之外的攻击面。

图像开辟了哪种新型攻击向量？

视觉模态代表了绕过安全对齐的未探索攻击面，作者指出。在文本上训练的过滤器无法覆盖图像自然支持的语义变换——将指令编码为图像符号、替换对象或视觉类比的组合。结果是：在纯语言模型中会被拒绝的攻击，通过视觉通道得以通过。

作者展示了四类攻击：

视觉加密器 — 将有害指令编码为附带解码图例的视觉符号序列
对象替换 — 用无害词（香蕉）替换有害词（炸弹），同时使用替换词请求有害操作
图像内文本替换 — 用无害语言手段替换有害文本，而视觉上下文保留原始解读
类比谜题 — 视觉谜题的解答需要对禁止概念进行推理

攻击成功率的具体指标是什么？

在Claude Haiku 4.5上，视觉加密器达到了40.9%的成功率。同等概念的文本攻击仅能突破**10.7%**的过滤器。差距近四倍，在视觉模态成为前沿标准模型组成部分之前，这种差距是不可能存在的。

评估涵盖六个前沿VLM。其他五个模型的具体数据在论文正文中给出，但作者选择Claude Haiku 4.5作为代表性案例，因为它是一个据称具有强大安全对齐的极新模型。

这对企业和安全团队意味着什么？

论文表明，现有的红队方法——几乎完全依赖文本提示攻击——系统性地低估了VLM风险。部署多模态智能体的安全团队必须将红队语料库扩展到图像输入，特别是：加密符号序列、视觉替换攻击和激活对被封锁概念进行推理的类比谜题。

更广泛的影响：在文本上进行的安全对齐（RLHF——基于人类反馈的强化学习）无法泛化到视觉模态。跨模态对齐成为研究优先事项，而非实现细节。

论文在ArXiv上的ID为2605.00583，将在ICML 2026上发表。

常见问题

VLM越狱中视觉攻击比文本攻击成功率高多少？

在Claude Haiku 4.5上，视觉加密器达到40.9%的成功率，而同等文本攻击仅能突破10.7%的过滤器——差距近四倍。

论文定义了哪四类攻击？

加密视觉符号序列（附解码图例）、以无害对象替换有害对象（炸弹→香蕉）、在图像中以无害文本替换有害文本并保留视觉上下文、以及需要对禁止概念进行推理的类比谜题。

研究中测试了多少个模型？

六个前沿视觉语言模型。论文已被ICML 2026接收，描述了在纯文本LLM中结构上不可能存在的攻击方式。

ArXiv：视觉图像以40.9%的成功率绕过视觉语言模型安全过滤器，ICML 2026论文揭示

图像开辟了哪种新型攻击向量？

攻击成功率的具体指标是什么？

这对企业和安全团队意味着什么？

常见问题

来源

相关新闻