🟡 🛡️ 安全 2026年5月8日星期五 · 2 分钟阅读 ·

arXiv:2605.04572: SQSD揭示无害微调同样会损害模型安全性

arXiv:2605.04572 ↗

编辑插图:2605.04572: SQSD揭示无害微调同样会损害模型安全性

该论文被ICML 2026接收,提出了SQSD方法——用于量化单个样本对模型安全性损害程度的贡献。研究人员证明,即使是看似无害的微调样本,也会累积地将参数推向「危险对齐」方向。

🤖

本文由人工智能基于一手来源生成。

作者团队(Xiao Wang、Yifei Zhang、YongKang Liu、Xiaocui Yang、Zihan Wang、Shi Feng和Daling Wang)于2026年5月6日发表了编号为arXiv:2605.04572的论文,该论文已被ICML 2026接收。论文提出了SQSD(样本级安全退化量化)——一种在大型语言模型微调过程中,量化单个样本对安全性损害贡献程度的方法。

核心发现:无害样本同样损害安全性

论文摘要指出,「无害微调会造成参数向『危险对齐』方向的累积偏移,从而逐渐削弱模型安全性」。换言之,即使开发团队使用看似中性的数据进行微调,结果也可能破坏模型通过偏好训练(RLHF、DPO等方法)所建立的安全行为。

SQSD如何工作?

SQSD通过测量某个样本产生的参数更新在参数空间中向安全或危险方向的投影,为每个样本计算风险分数。即使样本的文本内容本身是良性的,其参数更新若倾向于危险方向,也会获得较高的风险分数。这样就能识别出哪些样本对安全性侵蚀贡献最大。

跨架构的迁移性

实验表明,该方法具有「跨不同模型规模、架构和参数高效训练方法(如LoRA、前缀微调等)的强迁移性」。这意味着该方法无需针对每种模型与训练技术的组合单独进行校准。

为何重要?

现有的微调实践基于这样一个假设:良性数据集不会威胁安全性。SQSD在参数层面证明这一假设是错误的——并为在启动微调任务前进行风险评分,以及排除或降低对危险方向漂移贡献最大的样本权重提供了可能。这对于将开放模型微调用于内部场景的组织而言是一个实用工具。

常见问题

什么是SQSD?
样本级安全退化量化(Sample-level Quantification of Safety Degradation)——一种根据每个微调样本对参数向安全或危险方向偏移的影响,为其计算风险分数的方法。
什么是ICML?
国际机器学习会议(International Conference on Machine Learning)——机器学习领域三大顶级学术会议之一。
论文的主要发现是什么?
即使是无害的微调样本,也会造成参数向「危险对齐」方向的累积偏移,从而逐渐削弱模型的安全对齐能力。