arXiv:2605.16090: CrossMPI——仅通过图像扰动对视觉语言模型发起的跨模态攻击
arXiv:2605.16090提出CrossMPI——一种仅通过对图像像素进行不可见扰动即可向视觉语言模型注入恶意指令的攻击方法,无需任何文本。研究人员发现,多模态集成的关键层位于模型中间位置,而非此前假设的末端。该攻击平均成功率(ASR)达66.36%,比所有已知基线方法高出40.91个百分点。
本文由人工智能基于一手来源生成。
CrossMPI是什么?为何危险?
研究人员(杨浩、马卓、刘洋等)发表了论文arXiv:2605.16090,提出CrossMPI——一种针对大型视觉语言模型(LVLM)的提示注入攻击方法,仅通过图像扰动发挥作用,无需攻击者提供任何文本。
提示注入是一种向AI模型植入隐藏指令以改变其行为的攻击方式。CrossMPI将这一原理扩展至多模态空间:恶意指令被编码于对抗扰动——人眼无法察觉的不可见像素变化——之中。
视觉语言模型接收图像和文本,在内部将其融合至共同表示空间,再生成响应。正是这个步骤——多模态集成——被证明是最脆弱的攻击点。
颠覆既有假设:关键层在模型中间
此前研究普遍认为Transformer架构的输出层对操控最为敏感。CrossMPI通过实验推翻了这一观点。
最优扰动层位于VLM中间部分,而非末端。专注于输出层的防御机制无法拦截深层植入的攻击。这些中间层的优化空间约为10⁷参数(相比视觉嵌入的10⁵),这正是攻击效果显著提升的根本原因。
该方法结合了层选择策略(自动定位关键层)和衰减扰动预算分配(语义上更重要区域附近的像素获得更大扰动)。
实验结果:大幅领先基线方法
CrossMPI在六个VLM上进行了测试:MiniGPT4-Llama2、MiniGPT4-Vicuna、InstructBLIP、BLIP-2、BLIVA和Qwen2.5-VL,使用三个数据集(MSCOCO、ImageNet、TextVQA)。
平均攻击成功率(ASR)为66.36%——比四种基线方法的平均值高出40.91个百分点(ARE-W: 8.24%;CI: 54.57%;ATPI: 4.41%)。在BLIP-2与MSCOCO上,ASR高达96.08%,同时保持最小视觉失真(LPIPS ~18–20,而基线方法为70–85)。
安全影响为何严重?
控制输入图像的攻击者——例如文档、照片或网络内容——可以在不使用任何可被过滤器检测文本的情况下,改变VLM的行为。所有生产环境中的VLM部署(文档分析、医疗诊断、具有视觉能力的聊天机器人)都面临潜在威胁。
作者得出结论:防御策略必须放弃对输出层的聚焦,转向模型中间层——多模态集成真正发生的位置。
常见问题
- 什么是视觉语言模型(VLM)?
- 视觉语言模型(VLM)是能够同时理解图像和文本的多模态AI系统,典型代表有BLIP-2、InstructBLIP和Qwen2.5-VL。模型接收视觉和文本输入,在内部将其整合至共同表示空间,并生成文本响应。
- CrossMPI攻击如何运作?
- CrossMPI直接在模型隐藏状态空间中优化人眼不可见的细微像素变化(对抗扰动)。与针对视觉嵌入(10⁵参数)的攻击不同,它瞄准多模态集成发生的中间层(10⁷参数),从而大幅提升恶意指令注入的成功率。
- 「模型中间层」这一发现为何如此重要?
- 此前对抗攻击研究普遍认为Transformer架构的最后(输出)层对操控最为敏感。CrossMPI通过实验证明了相反的结论:多模态集成的关键层位于VLM的「中间」位置,这意味着所有聚焦于输出层的防御机制都需要重新评估。