为何微调会促进幻觉?语义表示之间的干扰——解决方案是自蒸馏SFT
为什么重要
一篇新ArXiv论文揭示,微调后幻觉增加的原因既不是容量不足,也不是行为克隆,而是重叠语义表示之间的干扰。解决方案:自蒸馏SFT,通过正则化输出分布漂移并将微调视为持续学习问题。
新论文揭示了什么?
2026年4月20日发布的ArXiv论文阐明了监督微调为何增加大型语言模型中的幻觉的机制。发现是反直觉的:幻觉既不是由容量不足引起,也不是由所谓的行为克隆引起,而是由一种名为重叠语义表示之间的干扰的特定现象引起。
定义:LLM上下文中的幻觉是指模型以与正确事实相同的自信捏造事实错误的信息并将其呈现为真实。
什么是微调,为何如此普遍?
定义:微调是对预训练模型在更窄、更具体的数据集上进行额外训练的过程,目的是让模型掌握新任务或领域。每个想要将LLM适配到自身需求的严肃团队都使用它——从客服机器人到医疗助手。
问题是微调经常降低模型的通用知识。LLM”学习”新事物后,会忘记它所知道的一部分,或者更糟——开始将新旧知识混合成幻想的陈述。
问题背后的机制是什么?
作者认为模型不是因为容量不足(没有”装满”)而失去知识,也不是因为行为克隆(模仿另一个模型)。真正的原因更为微妙:
重叠的语义表示。 模型将相关概念存储在其内部空间的相似部分。当微调过程中的梯度更新新领域的权重时,它们无意中修改相邻的表示——那些与类似但不完全相同的知识相关的表示。
比喻:如果你在图书馆移动所有医学书籍,你也会移动一些生物学书籍,因为它们在同一个书架上。不是图书馆太小——而是领域相互重叠。
作者提出了什么解决方案?
论文的主要创新是SFT(监督微调)的自蒸馏方法。它是如何工作的?
定义:自蒸馏意味着模型同时从新数据和自己以前的输出中学习。在训练过程中,梯度不仅为新知识优化,还正则化输出分布漂移——响应分布不能偏离原始太远。
实际上:每批训练都包括对模型以前知道的内容的”提醒”,从而在学习新知识的同时保护旧知识。
将微调视为持续学习
作者将SFT视为持续学习问题——机器学习的一个子分支,专注于学习新任务而不忘记旧任务。这种方法开启了已有充分研究的技术库,包括弹性权重整合、重放缓冲区和参数隔离。
附加解决方案:选择性冻结
作为替代方案,作者提到了选择性冻结——在不需要新知识的场景中选择性地冻结参数。如果你想让模型学习新的法律领域,但不想让它忘记如何写邮件,你就冻结控制写作的那部分网络。
对谁有用?
任何在敏感领域微调LLM的团队:
- 客户支持 — 不能捏造退货政策的机器人
- 医疗助手 — 不能幻觉诊断的模型
- 法律工具 — 必须准确引用法规的系统
- 金融顾问 — 不能捏造市场数据的工具
对于所有这些,自蒸馏SFT和选择性冻结是可以立即应用于现有训练流水线的具体技术,只需最小改动。
结论
论文给出了清晰的建议:将微调视为持续学习,而不是从头开始训练。幻觉不是不可避免的后果——它们是不保护现有知识的粗糙权重更新的症状。对于专业AI团队,这一发现将问题从”神秘现象”转化为可解决的工程任务。
本文由人工智能基于一手来源生成。