🟡 🤖 模型 2026年5月6日星期三 · 2 分钟阅读 ·

arXiv:2605.03871: EvoLM — 无需外部监督即可自我提升的语言模型

arXiv:2605.03871 ↗

编辑插图:两个语言模型在反馈回路中交换评分和改进,无需外部监督

EvoLM是一种消除外部监督的后训练方法——Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7%,在SkyWork-RM上超越16%,训练后的策略在OLMo3-Adapt基准测试中达到69.3%。

🤖

本文由人工智能基于一手来源生成。

来自arXiv的新研究介绍了一种完全消除外部监督依赖的后训练方法。EvoLM允许语言模型通过所谓的”判别性评分标准”自我提升——这是一种明确的标准量表,通过迭代训练与策略模型共同演化。

这种方法有何不同?

传统RLHF(基于人类反馈的强化学习——一种利用人类对输出评分进行微调的方法)需要人工标注或基于标注训练的独立奖励模型。EvoLM转而使用时间对比:将模型较旧的输出与较新的进行比较,从中提取改进评分标准的信号。

该系统将模型固有的评估能力结构化为明确的评分标准,这些标准与策略交替训练。由此形成一个闭合回路,生成器和评估器共享相同基础,但异步推进。

推动行业基准的数字

Qwen3-8B评分生成器在RewardBench-2上超越GPT-4.1达25.7个百分点,在SkyWork-RM(8B)——迄今最先进的奖励模型——上超越16个百分点。使用此方法训练的策略在OLMo3-Adapt评估套件上达到69.3%。

这是罕见的案例,开放的相对小型模型在评估者角色上胜过前沿模型——此前这一领域一直是大型封闭系统的专属。

这对RLHF生态系统意味着什么?

如果结果在独立复现中得到确认,EvoLM将开辟更廉价、更透明的训练路径。奖励模型是评估另一个模型输出质量的模型,而评分标准是明确的标准量表。GPT-4.1和Claude评判系统的开放替代方案对不希望在关键训练阶段依赖外部API的研究团队和公司尤为重要。

当模型自我评估时,该方法对”奖励黑客”的鲁棒性仍是悬而未决的问题——但公开基准测试的结果表明,时间对比提供了足够的质量崩溃防护。

常见问题

EvoLM解决了传统RLHF无法解决的哪些问题?
它消除了对外部奖励模型或人工标注的需求,因为策略和判别性评分标准会从模型自身较旧和较新输出中共同演化。
为什么一个超越GPT-4.1的8B模型意义重大?
这表明开放的小型模型可以在RLHF流水线中承担评估者角色,从而减少对前沿API的依赖并降低训练成本。
EvoLM中的判别性评分标准是什么?
这是一种明确的标准量表,将模型固有的评估能力结构化为可与策略一起迭代训练的形式。