arXiv:2606.19327:基于评分标准的自蒸馏在推理模型训练中超越GRPO
基于评分标准的条件自蒸馏是一种新型推理模型训练方法,在科学推理基准测试上比GRPO高出+1.0分,比OPSD高出+0.9分。该方法以评分标准作为词元级指导,取代标量奖励,实现了更精确的功劳分配。
本文由人工智能基于一手来源生成。
新型训练方法重新定义功劳分配
自蒸馏——模型从自身生成示例中学习,而非依赖外部收集数据——正日益成为高昂RLHF流程的流行替代方案。arXiv:2606.19327提出了基于评分标准的条件自蒸馏,通过结构化评分标准对这一思路进行升级:评分标准是一组标准,定义了推理过程中什么是优秀的步骤。其结果是在词元级别实现更精细的功劳分配(credit assignment),而非用一个数字对整个答案进行评价的标量奖励。
词元级指导替代标量奖励
该方法的核心创新在于评分标准进入训练的方式。评分标准不再作为外部评估标准,而是转化为词元级指导——这使模型不仅知道答案是否正确,还能知道哪些具体词元对正确或错误的推理有所贡献。这一机制类似于过程奖励模型(PRM)技术,但这里的指导来自评分标准描述,而非独立的奖励模型。目前两种主流方法——GRPO(群体相对策略优化)和OPSD(在线策略自蒸馏)——依赖群体或聚合信号,会丧失这种细粒度。
在科学推理基准测试上持续提升
实验结果确认了新方法的优势。基于评分标准的自蒸馏在涵盖数学、物理和化学推理的一组基准测试平均分上,分别超越GRPO +1.0分和OPSD +0.9分。在十分之几个百分点的进步意味着数周额外开发的领域,一分的提升代表着可测量的进步。作者指出,改进在所有测试中保持一致,而非仅在特定子集上——这表明其优势来自结构性因素,而非偶然。
对下一代推理模型开发的影响
这项研究对开发o系列(OpenAI)或Claude Extended Thinking(Anthropic)等模型的实验室具有实践意义。如果评分标准能够取代或补充标量奖励,而无需额外模型,推理能力的训练将变得更经济、更易于控制。研究人员指出,该方法在多步骤数学问题上效果尤为突出——这正是当前模型在推理链早期阶段最容易出错的地方。
常见问题
- 什么是自蒸馏,它与标准RLHF训练有何不同?
- 自蒸馏是模型从自身生成示例中学习的方法,与使用外部人类评分的RLHF或优化群体奖励的GRPO不同。基于评分标准的方法将结构化评分标准作为词元级指导,能对推理过程中每个步骤的质量进行更精细的评估。
- 与现有方法相比,基于评分标准的自蒸馏实际提升了多少?
- 在科学推理基准测试上,新方法在平均得分上超越GRPO +1.0分,超越OPSD +0.9分——在十分之几个百分点变动已属常见的领域,这是统计显著性改进。