🟡 🤖 模型 发布于: · 2 分钟阅读 ·

arXiv:2606.19327:基于评分标准的自蒸馏在推理模型训练中超越GRPO

arXiv:2606.19327 ↗

编辑插图:2606.19327——基于评分标准的自蒸馏在推理模型训练中超越GRPO

基于评分标准的条件自蒸馏是一种新型推理模型训练方法,在科学推理基准测试上比GRPO高出+1.0分,比OPSD高出+0.9分。该方法以评分标准作为词元级指导,取代标量奖励,实现了更精确的功劳分配。

🤖

本文由人工智能基于一手来源生成。

新型训练方法重新定义功劳分配

自蒸馏——模型从自身生成示例中学习,而非依赖外部收集数据——正日益成为高昂RLHF流程的流行替代方案。arXiv:2606.19327提出了基于评分标准的条件自蒸馏,通过结构化评分标准对这一思路进行升级:评分标准是一组标准,定义了推理过程中什么是优秀的步骤。其结果是在词元级别实现更精细的功劳分配(credit assignment),而非用一个数字对整个答案进行评价的标量奖励。

词元级指导替代标量奖励

该方法的核心创新在于评分标准进入训练的方式。评分标准不再作为外部评估标准,而是转化为词元级指导——这使模型不仅知道答案是否正确,还能知道哪些具体词元对正确或错误的推理有所贡献。这一机制类似于过程奖励模型(PRM)技术,但这里的指导来自评分标准描述,而非独立的奖励模型。目前两种主流方法——GRPO(群体相对策略优化)和OPSD(在线策略自蒸馏)——依赖群体或聚合信号,会丧失这种细粒度。

在科学推理基准测试上持续提升

实验结果确认了新方法的优势。基于评分标准的自蒸馏在涵盖数学、物理和化学推理的一组基准测试平均分上,分别超越GRPO +1.0分OPSD +0.9分。在十分之几个百分点的进步意味着数周额外开发的领域,一分的提升代表着可测量的进步。作者指出,改进在所有测试中保持一致,而非仅在特定子集上——这表明其优势来自结构性因素,而非偶然。

对下一代推理模型开发的影响

这项研究对开发o系列(OpenAI)或Claude Extended Thinking(Anthropic)等模型的实验室具有实践意义。如果评分标准能够取代或补充标量奖励,而无需额外模型,推理能力的训练将变得更经济、更易于控制。研究人员指出,该方法在多步骤数学问题上效果尤为突出——这正是当前模型在推理链早期阶段最容易出错的地方。

常见问题

什么是自蒸馏,它与标准RLHF训练有何不同?
自蒸馏是模型从自身生成示例中学习的方法,与使用外部人类评分的RLHF或优化群体奖励的GRPO不同。基于评分标准的方法将结构化评分标准作为词元级指导,能对推理过程中每个步骤的质量进行更精细的评估。
与现有方法相比,基于评分标准的自蒸馏实际提升了多少?
在科学推理基准测试上,新方法在平均得分上超越GRPO +1.0分,超越OPSD +0.9分——在十分之几个百分点变动已属常见的领域,这是统计显著性改进。