ArXiv:MemJack——多智能体攻击以高达90%的成功率突破视觉语言模型防护
为什么重要
MemJack是一种针对视觉语言模型(VLM)的新型越狱攻击框架,采用多智能体协同协作,而非传统的像素扰动方法。在未经修改的COCO图像上测试,对Qwen3-VL-Plus的攻击成功率达71.48%,扩大计算预算后可提升至90%。研究人员宣布将公开发布超过113,000条交互式攻击轨迹,供防御性研究使用。
融合文本与图像理解能力的多模态AI模型——即视觉语言模型(VLM)——正面临新一类安全威胁。以Jianhao Chen为首的研究团队提出了MemJack框架,该框架通过多智能体协同协作绕过VLM的安全机制,取得了令人担忧的高成功率。
MemJack如何绕过安全防护?
与以往依赖像素扰动——即对人眼不可见的图像微小修改——的方法不同,MemJack采用了截然不同的策略。该系统通过对图像内容的语义理解,将视觉元素映射到有害目标,然后利用多视角伪装技术生成对抗性提示。
核心创新在于多个专业智能体的协同配合:一个智能体分析视觉内容,另一个生成伪装策略,第三个应用几何过滤来绕过模型的安全机制。系统使用完全未经修改的COCO数据集图像——计算机视觉领域的标准数据集——这使其尤为危险,因为现有防御无法在像素层面检测到任何操纵。
为何持久记忆是关键组件?
MemJack引入了持久记忆组件,通过交互积累成功策略。每次成功攻击都会丰富系统的知识库,使未来针对新图像的攻击更加有效。这种从经验中学习的机制意味着系统会随时间推移变得越来越危险。
在Qwen3-VL-Plus模型的测试中,MemJack实现了71.48%的攻击成功率(ASR)。扩大计算预算——增加迭代次数和智能体数量——后,该比率可升至惊人的90%。这意味着几乎每十张图像中就有九张可以作为对多模态模型的攻击载体。
这对多模态模型行业意味着什么?
研究结果指出了VLM安全架构中的根本性问题。此前的防御主要集中在检测修改后的图像或过滤明确有害的文本提示上。MemJack表明,攻击者可以使用完全合法的图像和精心设计的提示来绕过这些防护措施。
研究人员宣布将公开发布包含超过113,000条交互式多模态攻击轨迹的MemJack-Bench数据集,旨在使防御研究人员能够开发更强大的保护机制。这是一把双刃剑——相同的数据既有助于防御,也可能对攻击者有用,但研究团队认为透明度最终有利于防御方。
对于在生产系统中使用VLM的企业——从医学图像分析到自动驾驶——MemJack发出了警告:安全评估必须包括对协同多智能体攻击的抵抗力测试,而不仅仅是针对孤立操纵尝试的测试。
本文由人工智能基于一手来源生成。