评分标准自蒸馏超越GRPO（2026年6月arXiv）

基于评分标准的条件自蒸馏是一种新型推理模型训练方法，在科学推理基准测试上比GRPO高出+1.0分，比OPSD高出+0.9分。该方法以评分标准作为词元级指导，取代标量奖励，实现了更精确的功劳分配。

新型训练方法重新定义功劳分配

自蒸馏——模型从自身生成示例中学习，而非依赖外部收集数据——正日益成为高昂RLHF流程的流行替代方案。arXiv:2606.19327提出了基于评分标准的条件自蒸馏，通过结构化评分标准对这一思路进行升级：评分标准是一组标准，定义了推理过程中什么是优秀的步骤。其结果是在词元级别实现更精细的功劳分配（credit assignment），而非用一个数字对整个答案进行评价的标量奖励。

词元级指导替代标量奖励

该方法的核心创新在于评分标准进入训练的方式。评分标准不再作为外部评估标准，而是转化为词元级指导——这使模型不仅知道答案是否正确，还能知道哪些具体词元对正确或错误的推理有所贡献。这一机制类似于过程奖励模型（PRM）技术，但这里的指导来自评分标准描述，而非独立的奖励模型。目前两种主流方法——GRPO（群体相对策略优化）和OPSD（在线策略自蒸馏）——依赖群体或聚合信号，会丧失这种细粒度。

在科学推理基准测试上持续提升

实验结果确认了新方法的优势。基于评分标准的自蒸馏在涵盖数学、物理和化学推理的一组基准测试平均分上，分别超越GRPO +1.0分和OPSD +0.9分。在十分之几个百分点的进步意味着数周额外开发的领域，一分的提升代表着可测量的进步。作者指出，改进在所有测试中保持一致，而非仅在特定子集上——这表明其优势来自结构性因素，而非偶然。

对下一代推理模型开发的影响

这项研究对开发o系列（OpenAI）或Claude Extended Thinking（Anthropic）等模型的实验室具有实践意义。如果评分标准能够取代或补充标量奖励，而无需额外模型，推理能力的训练将变得更经济、更易于控制。研究人员指出，该方法在多步骤数学问题上效果尤为突出——这正是当前模型在推理链早期阶段最容易出错的地方。

常见问题

什么是自蒸馏，它与标准RLHF训练有何不同？

自蒸馏是模型从自身生成示例中学习的方法，与使用外部人类评分的RLHF或优化群体奖励的GRPO不同。基于评分标准的方法将结构化评分标准作为词元级指导，能对推理过程中每个步骤的质量进行更精细的评估。

与现有方法相比，基于评分标准的自蒸馏实际提升了多少？

在科学推理基准测试上，新方法在平均得分上超越GRPO +1.0分，超越OPSD +0.9分——在十分之几个百分点变动已属常见的领域，这是统计显著性改进。

arXiv:2606.19327：基于评分标准的自蒸馏在推理模型训练中超越GRPO

新型训练方法重新定义功劳分配

词元级指导替代标量奖励

在科学推理基准测试上持续提升

对下一代推理模型开发的影响

常见问题

来源

相关新闻