Tandem RL: 思考の連鎖の可読性とハンドオフを改善

Tandem RLは、RLVR（検証可能な報酬を用いた強化学習）とタンデムアプローチを組み合わせた言語モデルの新しいトレーニング手法です。思考の連鎖生成時に、より強いモデルが凍結された弱いモデルと協力します。Qwen3-4Bで同等の性能を達成しながら、可読性と小モデルへのハンドオフを大幅に改善します。

EPFLの研究者が、数学的推論のための現代的な言語モデルトレーニング手法の実際的な問題を解決するプレプリントをarXivに公開しました。

RLVRと可読性の問題

RLVR（Reinforcement Learning with Verifiable Rewards）は、客観的に検証可能な正確な回答を報酬として与えることで言語モデルの推論能力を向上させる手法です — 主に競技数学において使用されます。モデルはこの過程で「思考の連鎖」（chain-of-thought）を生成します：明示的なステップバイステップの推論プロセスです。しかし標準的なRLVRは独特のパターンを発達させます：言語の混在、非論理的な構造、低い可読性 — これが弱いモデルや人間による学習パターンの活用を不可能にします。

Tandem RLの仕組み

Tandem RL（TRL）は異なるアプローチを導入します：より強いトレーニング済みモデルが凍結された弱いモデルと交互に思考の連鎖を生成します。両モデルは共通の報酬信号を共有します。これにより強いモデルは暗黙的に弱いモデルが追うことができるように書くことを学習します。著者ら（Jiao、Singhal、West、Anderson — EPFL）は競技数学タスクセットを使用してQwen3-4B-Instructモデルでタンデム強化学習をトレーニングしました。

TRLは可読性とハンドオフの頑健性で標準RLVRを上回る

結果はTRLが標準RLVRと同等のソロ性能を達成することを示しており — 自身のタスクでの精度は低下しません。重要な違いは転移の質にあります：標準RLVRは言語を混在させ非転用可能なパターンを発達させますが、TRLははるかに可読性の高い思考の連鎖シーケンスを生成します。論文は同じトレーニングから生まれた3つの創発的特性を識別します：小モデルへのより良いハンドオフ、分布の乖離の低減、より可読性の高いchain-of-thought。論文はarXivのプレプリント（cs.AI、21ページ）として公開されています。

よくある質問

RLVRとは何か、なぜ可読性に問題が生じる可能性があるのですか？

RLVR（Reinforcement Learning with Verifiable Rewards）は、検証可能な正確な回答を報酬として与えることで言語モデルの推論能力を向上させる手法ですが、独特のパターンを発達させます — 言語の混在や非転用可能な思考の連鎖構造 — これが弱いモデルや人間による学習パターンの活用を困難にします。

Tandem RLはどのように小モデルへのハンドオフの問題を解決しますか？

TRLは思考の連鎖シーケンスの生成時に、凍結された弱いモデルを協力者として使用します。これにより強いモデルは暗黙的により可読性が高く一貫した内容を書くことを学習し、ハンドオフの改善と分布の乖離の低減につながります。

arXiv:2606.28166: Tandem RL — 検証可能な報酬により思考の連鎖の可読性と小モデルへのハンドオフを改善

RLVRと可読性の問題

Tandem RLの仕組み

TRLは可読性とハンドオフの頑健性で標準RLVRを上回る

よくある質問

出典

関連ニュース