什么是拒绝方向，为什么它们对多模态安全很重要？

拒绝方向是大语言模型激活空间中的几何向量，代表模型拒绝有害请求的机制。MARS 从文本模型中提取这些向量，并在不需要单独安全数据的情况下将其应用于视觉模态。

MARS 不需要额外训练为何重要？

无训练方法可以立即应用于已部署的模型，无需昂贵的数据集或 GPU 资源，使其适用于生产环境和仅 API 的场景。

MARS 在多少个模型上进行了测试？

MARS 在五个当前最先进的多模态模型上进行了测试，结果显示安全性持续提升且实用性没有显著下降。

MARS：无需训练的多模态安全

特伦托大学的研究人员提出 MARS——一种多模态安全方法，从文本大语言模型中提取拒绝方向并将其应用于图像和视频输入，无需任何额外训练。该方法在五个当前最先进的多模态模型上经过测试，在保持实用性的同时安全性持续提升。

同时处理文本、图像和视频的多模态大型语言模型为安全研究人员带来了新挑战：在文本数据上训练的安全机制不会自动迁移到视觉模态。无法通过文字查询获得有害响应的攻击者，有时可以通过精心构造的图像或视频序列实现这一目的。

特伦托大学信息工程系的研究团队——D’Incà、Mancini 和 Sebe——提出了一种无需任何额外训练步骤即可弥合这一差距的新方法。

什么是 MARS？

MARS（模态无关拒绝引导，Modality-Agnostic Refusal Steering）基于一个简单但有力的假设：大语言模型拒绝有害文本请求的机制并不仅仅存在于输入层——而是深藏于模型的激活空间中。这些拒绝方向是可识别的几何结构，正如 MARS 所展示的，它们可以跨模态泛化。

具体而言：从模型的纯文本部分提取的拒绝方向可以应用于由图像或视频处理产生的激活。多模态模型包含关于拒绝意味着什么的知识——MARS 将这种结构激活到视觉模态，而这些模态通常不存在主动的安全机制。

使 MARS 更稳健的三种机制

该方法在生成第一个响应 token 时——做出拒绝决定的阶段——依赖三个协同工作的组件：

激活再中心化 将激活空间偏移到模型自然拒绝有害请求的区域。由视觉输入产生的激活被引导向文本模型识别有害内容的相同几何区域。

自适应干预缩放 根据输入与安全样本的距离动态调整校正强度。这减少了对良性查询的附带影响——模型的实用性不会因全面加强所有拒绝而降级。

最优层选择 识别在生成第一个 token 时对拒绝决定影响最大的 Transformer 层，并精确地在该层施加干预。这比在所有层应用更高效，并减少了与网络其余部分的意外交互。

核心优势：无需多模态安全数据

多模态安全的传统方法需要将有害视觉输入与适当响应配对的数据集——收集成本高昂且困难，而且微调过程可能会降低模型在标准任务上的实用性。

MARS 不需要此类数据。它仅使用模型中已有的文本拒绝结构。这使其可应用于任何共享公共大语言模型骨干的多模态模型——无需重新训练，无需 GPU 集群，无需专业安全数据集。

在五个当前最先进多模态模型上的测试

研究人员在五个当前最先进的多模态模型（处理图像和视频）上进行了评估。结果显示安全性持续提升：启用 MARS 的模型在视觉攻击时生成有害内容的频率更低，而这些攻击本来可以绕过文本防护。

生产环境中的关键条件——安全干预不应降低实用性——得到了满足：良性任务上的实用性保持完整。会对响应质量产生负面影响的安全干预在实践中将不被接受。

作者强调 MARS 并不是对健壮安全训练的替代——它是一个可以快速、低成本改进已部署模型的轻量级层。与原始安全训练的结合在理论上应该产生更好的结果。

更广泛的背景：为什么模态安全迫在眉睫

对多模态模型的视觉攻击是一个不断增长的威胁类别：对抗性图像、嵌入照片中的文本、旨在迷惑安全过滤器的视频序列。随着多模态模型部署于生产系统——从具有图像上传功能的聊天机器人到视觉内容审核自动化系统——视觉模态特有的漏洞变得越来越重要。

在组织缺乏微调资源或模型不可用于训练（仅 API 部署）的场景中，MARS 无需训练的方法尤为有价值。轻量级特性和对现成模型的适用性，使其有别于大多数假设能完全访问模型参数的先前方法。

这项研究也提出了更广泛的研究问题：大语言模型中的安全知识具有多大的模块化特性？如果拒绝方向可以成功跨模态迁移，同样的原则可能也适用于跨任务、跨领域或相关模型架构之间的迁移。

MARS：文本拒绝方向保护多模态 AI 模型，无需额外训练

什么是 MARS？

使 MARS 更稳健的三种机制

核心优势：无需多模态安全数据

在五个当前最先进多模态模型上的测试

更广泛的背景：为什么模态安全迫在眉睫

常见问题

来源

相关新闻