什么是微调，为何团队这样做？

微调是对预训练模型在特定数据集上进行额外训练，使其学习新任务或领域的过程。团队这样做是因为他们希望通用LLM成为客服、医学术语、法律文件或特定产品的专家。问题是这个过程通常会降低模型的通用知识。

什么是"重叠语义表示之间的干扰"？

模型将相关概念存储在其内部表示的相似部分。当你在新领域微调它时，梯度会无意中修改相邻的表示——那些与类似但不完全相同的知识相关的表示。结果是模型"忘记"了它所知道的，并开始捏造事实。

自蒸馏意味着模型同时从新数据和自己以前的输出中学习。通过这种方式，输出分布漂移被正则化——响应分布不能偏离原始太远。微调因此被视为持续学习——在学习新知识的同时不忘记旧知识。

2026年4月20日发布的ArXiv论文阐明了监督微调为何增加大型语言模型中的幻觉的机制。发现是反直觉的：幻觉既不是由容量不足引起，也不是由所谓的行为克隆引起，而是由一种名为重叠语义表示之间的干扰的特定现象引起。

定义：LLM上下文中的幻觉是指模型以与正确事实相同的自信捏造事实错误的信息并将其呈现为真实。

定义：微调是对预训练模型在更窄、更具体的数据集上进行额外训练的过程，目的是让模型掌握新任务或领域。每个想要将LLM适配到自身需求的严肃团队都使用它——从客服机器人到医疗助手。

问题是微调经常降低模型的通用知识。LLM”学习”新事物后，会忘记它所知道的一部分，或者更糟——开始将新旧知识混合成幻想的陈述。

作者认为模型不是因为容量不足（没有”装满”）而失去知识，也不是因为行为克隆（模仿另一个模型）。真正的原因更为微妙：

重叠的语义表示。 模型将相关概念存储在其内部空间的相似部分。当微调过程中的梯度更新新领域的权重时，它们无意中修改相邻的表示——那些与类似但不完全相同的知识相关的表示。

比喻：如果你在图书馆移动所有医学书籍，你也会移动一些生物学书籍，因为它们在同一个书架上。不是图书馆太小——而是领域相互重叠。

论文的主要创新是SFT（监督微调）的自蒸馏方法。它是如何工作的？

定义：自蒸馏意味着模型同时从新数据和自己以前的输出中学习。在训练过程中，梯度不仅为新知识优化，还正则化输出分布漂移——响应分布不能偏离原始太远。

实际上：每批训练都包括对模型以前知道的内容的”提醒”，从而在学习新知识的同时保护旧知识。

作者将SFT视为持续学习问题——机器学习的一个子分支，专注于学习新任务而不忘记旧任务。这种方法开启了已有充分研究的技术库，包括弹性权重整合、重放缓冲区和参数隔离。

作为替代方案，作者提到了选择性冻结——在不需要新知识的场景中选择性地冻结参数。如果你想让模型学习新的法律领域，但不想让它忘记如何写邮件，你就冻结控制写作的那部分网络。

任何在敏感领域微调LLM的团队：

对于所有这些，自蒸馏SFT和选择性冻结是可以立即应用于现有训练流水线的具体技术，只需最小改动。

论文给出了清晰的建议：将微调视为持续学习，而不是从头开始训练。幻觉不是不可避免的后果——它们是不保护现有知识的粗糙权重更新的症状。对于专业AI团队，这一发现将问题从”神秘现象”转化为可解决的工程任务。