arXiv:2606.28166:Tandem RL——可验证奖励提升思维链可读性并改善向小模型的迁移
Tandem RL是一种训练语言模型的新方法,将RLVR(带可验证奖励的强化学习)与串联方法结合:更强的模型在生成思维链时与冻结的较弱模型协作。在Qwen3-4B上,它在保持同等性能的同时显著提升可读性和向小模型迁移时的鲁棒性。
本文由人工智能基于一手来源生成。
EPFL研究人员发布了一篇arXiv预印本,解决了当代语言模型数学推理训练技术中的一个实际问题。
RLVR与可读性问题
RLVR(带可验证奖励的强化学习)是一种通过奖励正确、客观可验证答案来提升语言模型推理能力的方法——最常用于竞赛数学。模型在此过程中生成「思维链」(chain-of-thought):逐步显式推理过程。然而,标准RLVR会产生特异性模式:语言混合、逻辑混乱的结构和可读性差——使较弱模型或人类无法使用习得的范式。
Tandem RL如何工作?
Tandem RL(TRL)引入了不同方法:较强的被训练模型与冻结的较弱模型交替生成思维链。两个模型共享同一奖励信号。这样,较强模型会隐式地学会以较弱模型能够跟随的方式书写。作者(Jiao、Singhal、West、Anderson——EPFL)在Qwen3-4B-Instruct模型上使用竞赛数学任务集训练TRL。
TRL在可读性与迁移鲁棒性上超越标准RLVR
结果表明,TRL在独立任务上取得与标准RLVR相当的性能——自身任务准确率不下降。关键差异在于迁移质量:标准RLVR混合语言并产生不可迁移的模式,而TRL生成可读性显著更高的思维链序列。该论文识别出同一训练产生的三个涌现特性:更好的向小模型迁移、更小的分布散度和更易读的思维链。论文以arXiv预印本形式发布(cs.AI,21页)。
常见问题
- 什么是RLVR,为什么它可能影响可读性?
- RLVR(带可验证奖励的强化学习)通过奖励正确、可验证的答案来训练模型,但会产生特异性模式——语言混合和不可迁移的思维链结构——使较弱模型或人类难以使用这些习得的范式。
- Tandem RL如何解决向小模型迁移的问题?
- TRL使用冻结的较弱模型作为协作者生成思维链序列,使较强模型隐式地学会写出更易读、更一致的内容——从而获得更好的迁移效果和更小的分布散度。