EvoLM：8B无监督模型RewardBench +25.7%

EvoLM是一种消除外部监督的后训练方法——Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7%，在SkyWork-RM上超越16%，训练后的策略在OLMo3-Adapt基准测试中达到69.3%。

来自arXiv的新研究介绍了一种完全消除外部监督依赖的后训练方法。EvoLM允许语言模型通过所谓的”判别性评分标准”自我提升——这是一种明确的标准量表，通过迭代训练与策略模型共同演化。

这种方法有何不同？

传统RLHF（基于人类反馈的强化学习——一种利用人类对输出评分进行微调的方法）需要人工标注或基于标注训练的独立奖励模型。EvoLM转而使用时间对比：将模型较旧的输出与较新的进行比较，从中提取改进评分标准的信号。

该系统将模型固有的评估能力结构化为明确的评分标准，这些标准与策略交替训练。由此形成一个闭合回路，生成器和评估器共享相同基础，但异步推进。

Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7个百分点，在SkyWork-RM（8B）——迄今最先进的奖励模型——上超越16个百分点。使用此方法训练的策略在OLMo3-Adapt评估套件上达到69.3%。

这是罕见的案例，开放的相对小型模型在评估者角色上胜过前沿模型——此前这一领域一直是大型封闭系统的专属。

如果结果在独立复现中得到确认，EvoLM将开辟更廉价、更透明的训练路径。奖励模型是评估另一个模型输出质量的模型，而评分标准是明确的标准量表。GPT-4.1和Claude评判系统的开放替代方案对不希望在关键训练阶段依赖外部API的研究团队和公司尤为重要。

当模型自我评估时，该方法对”奖励黑客”的鲁棒性仍是悬而未决的问题——但公开基准测试的结果表明，时间对比提供了足够的质量崩溃防护。

常见问题

EvoLM解决了传统RLHF无法解决的哪些问题？

它消除了对外部奖励模型或人工标注的需求，因为策略和判别性评分标准会从模型自身较旧和较新输出中共同演化。

为什么一个超越GPT-4.1的8B模型意义重大？

这表明开放的小型模型可以在RLHF流水线中承担评估者角色，从而减少对前沿API的依赖并降低训练成本。

EvoLM中的判别性评分标准是什么？

这是一种明确的标准量表，将模型固有的评估能力结构化为可与策略一起迭代训练的形式。