MemJack是什么，它是如何工作的？

MemJack是一个视觉语言模型安全测试框架，使用多个协同智能体将视觉元素映射到有害目标，在不修改原始图像的情况下生成对抗性提示。

MemJack攻击的成功率有多高？

在Qwen3-VL-Plus模型上实现了71.48%的攻击成功率（ASR），扩大计算预算后该比例可升至90%。

它揭示了多模态模型中一类新型漏洞，无需对图像进行技术操纵，这意味着现有的基于像素扰动检测的防御措施并不足够。

融合文本与图像理解能力的多模态AI模型——即视觉语言模型（VLM）——正面临新一类安全威胁。以Jianhao Chen为首的研究团队提出了MemJack框架，该框架通过多智能体协同协作绕过VLM的安全机制，取得了令人担忧的高成功率。

与以往依赖像素扰动——即对人眼不可见的图像微小修改——的方法不同，MemJack采用了截然不同的策略。该系统通过对图像内容的语义理解，将视觉元素映射到有害目标，然后利用多视角伪装技术生成对抗性提示。

核心创新在于多个专业智能体的协同配合：一个智能体分析视觉内容，另一个生成伪装策略，第三个应用几何过滤来绕过模型的安全机制。系统使用完全未经修改的COCO数据集图像——计算机视觉领域的标准数据集——这使其尤为危险，因为现有防御无法在像素层面检测到任何操纵。

MemJack引入了持久记忆组件，通过交互积累成功策略。每次成功攻击都会丰富系统的知识库，使未来针对新图像的攻击更加有效。这种从经验中学习的机制意味着系统会随时间推移变得越来越危险。

在Qwen3-VL-Plus模型的测试中，MemJack实现了71.48%的攻击成功率（ASR）。扩大计算预算——增加迭代次数和智能体数量——后，该比率可升至惊人的90%。这意味着几乎每十张图像中就有九张可以作为对多模态模型的攻击载体。

研究结果指出了VLM安全架构中的根本性问题。此前的防御主要集中在检测修改后的图像或过滤明确有害的文本提示上。MemJack表明，攻击者可以使用完全合法的图像和精心设计的提示来绕过这些防护措施。

研究人员宣布将公开发布包含超过113,000条交互式多模态攻击轨迹的MemJack-Bench数据集，旨在使防御研究人员能够开发更强大的保护机制。这是一把双刃剑——相同的数据既有助于防御，也可能对攻击者有用，但研究团队认为透明度最终有利于防御方。

对于在生产系统中使用VLM的企业——从医学图像分析到自动驾驶——MemJack发出了警告：安全评估必须包括对协同多智能体攻击的抵抗力测试，而不仅仅是针对孤立操纵尝试的测试。