arXiv：Patcher 保护 LLM 免受恶意微调

一篇新论文提出 Patcher，一种保护开放权重语言模型免受恶意微调的防御方法。与会在全参数攻击下失效的现有防御不同，Patcher 通过对抗训练和双层优化显著提升鲁棒性，并能在各类攻击场景中泛化。

arXiv 于 2026 年 6 月 6 日发表了一篇论文（编号 arXiv:2606.07970，版本 v1，04:04 UTC），提出了 Patcher，一种保护开放权重大语言模型免受恶意微调的防御方法。论文针对现有防护中一个攻击者可以利用的具体漏洞。

什么是恶意微调？

微调是在新数据上对模型进行再训练，以适配某项任务。对于开放权重模型（开放权重的模型）来说，任何人都能访问参数，因此也能对其进行再训练。

恶意微调正是利用了这种开放性：攻击者通过额外训练让模型恢复有害能力，或移除其安全机制。Patcher 被设计为一种使这种滥用变得更困难的防御。

论文指出了现有方法的一个关键弱点。现有防御在 alignment（使模型与人类意图对齐）阶段能抵御 parameter-efficient 方法——那些只改变一小部分参数的方法。

然而，这些防御会在 full-parameter 微调攻击下失效，这类攻击会改变模型的全部参数。由于这种攻击更强大，它能突破为更小改动设计的防护。Patcher 力求填补这一空白。

Patcher 通过两种机制增强抗性：对抗训练（针对模拟攻击进行训练）和双层优化（两个层级上的优化）。通过结合这两种方法，模型在训练过程中就为攻击做好了准备。

关键在于扩大对抗循环中的优化步数。通过增加模拟攻击的步数，防御对更强的全参数接管尝试也变得更有抗性。

增强防御往往也意味着更高的训练成本，因此实用性是一个重要问题。论文指出 Patcher 具有高效的并行实现，从而可以在不出现不合理减速的情况下执行对抗过程。

这种算力可行性是理论防御与实际可用防御之间的区别。高效的并行化意味着这种保护可以纳入真实的开发流程，而不会带来过大的额外成本。

根据论文，相比 vanilla SFT 对齐（作为基准的基础监督微调），Patcher 显著提升了鲁棒性。换句话说，受此方法保护的模型更难被恶意训练接管。

同样重要的是，这种防御能在多样的攻击场景和不同的模型规模上泛化。因此 Patcher 并不局限于某一种攻击或某一种模型规模，而是为开放权重 LLM 提供了更广泛、可迁移的保护。

常见问题

什么是 Patcher？

Patcher 是一种保护开放权重大语言模型免受恶意微调（出于恶意目的的再训练）的防御方法。它通过对抗训练和双层优化，并扩大对抗循环中的优化步数，来增强模型的抗性。

为什么现有防御不够用？

现有防御在 alignment（对齐）阶段能抵御 parameter-efficient 的微调方法，但会在 full-parameter 微调攻击下失效。Patcher 正是为了弥补这一弱点而设计，使模型也能抵御改变全部参数的攻击。

Patcher 有多鲁棒？

相比 vanilla SFT 对齐（基础的监督微调），Patcher 显著提升了鲁棒性。此外它能在多样的攻击场景和不同的模型规模上泛化，并具有高效的并行实现。