arXiv：CoDaPO——適応型 RL 最適化

新しい論文が、推論モデルの RL 訓練に繰り返し現れる 3 つのダイナミクスを特定し、信頼度と難易度に応じて問題に重み付けする手法 CoDaPO を提案する。学習可能な問題を優先することで、12 のベンチマークで一貫した改善を達成する。

arXiv は 2026 年 6 月 6 日、CoDaPO を提示する論文（識別子 arXiv:2606.07950、バージョン v1、02:51 UTC）を公開した。これは推論モデルの訓練のための信頼度/難易度適応型方策最適化手法である。論文は RL 訓練（強化学習）に繰り返し現れる問題の分析から出発する。

RL 訓練ではどのようなダイナミクスが現れるのか？

著者らは強化学習訓練に繰り返し現れる 3 つのダイナミクスを特定している。1 つ目は confidence inflation（信頼度の膨張）で、実際の正確さとは無関係にモデルが自分の答えにますます確信を持つようになる現象である。

2 つ目は advantage contraction（アドバンテージの収縮）で、各例の有用性の差が縮小し学習を困難にする。3 つ目は hierarchical convergence（階層的収束）で、モデルが層ごとに収束するパターンである。これら 3 つのダイナミクスがあわさって、標準的な RL 訓練がなぜ計算を非効率に消費するのかを説明する。

CoDaPO とは何で、どのように動くのか？

これらの問題への対応として、論文は CoDaPO を提案する。この手法は rollout confidence（答えを生成する際の信頼度）と個々の問題の経験的な難易度に基づいて問題に重要度を割り当てる。

その評価に基づいて、CoDaPO は次に policy update（方策更新のステップ）を再重み付け（reweight）する。これにより訓練は、すべての例を一律に扱うのではなく、学習に最も寄与する例へと導かれる。

なぜ学習可能な問題が焦点なのか？

中心的なアイデアは、固定の計算予算内で「学習可能な」問題を優先することである。これは簡単すぎず解けなくもなく、まさにモデルが最も多くを学べる問題である。

モデルがすでに確実に解ける問題と依然として難しい問題を区別することで、CoDaPO は進歩をもたらさない例に資源を浪費することを避ける。これにより、同じ計算資源の予算がはるかに目的にかなった形で使われる。

この手法はどれほどの改善をもたらすのか？

論文によれば、CoDaPO は既存の RL 手法に対して 12 のベンチマークで一貫した改善を達成する。これは単一のテストでの孤立した結果ではなく、幅広いタスク群にわたる着実な進歩である。

この手法の目的は、モデルがすでに解ける問題と依然として難しい問題を区別することによる、より効率的な計算配分である。まさにこの的を絞った資源配分が、記録された改善の背後にある。

なぜこのアプローチは重要なのか？

この論文が興味深いのは、推論モデルの訓練の問題を、単に資源を増やすことではなく、注意の配分の問題として設定している点である。CoDaPO は計算を単純に増やすのではなく、より賢く導く。

これにより、限られた予算の条件下でより効率的にモデルを訓練する道が開かれる。固定の資源で作業する研究者にとって、このような適応型アプローチは追加コストなしでより良い結果を意味しうる。

よくある質問

論文はどの 3 つの RL ダイナミクスを特定していますか？

論文は RL 訓練に繰り返し現れる 3 つのダイナミクスを特定します：confidence inflation（信頼度の膨張）、advantage contraction（アドバンテージの収縮）、hierarchical convergence（階層的収束）。これらは推論モデルの訓練中に繰り返し現れるパターンを記述します。

CoDaPO はどのように問題へ重要度を割り当てますか？

CoDaPO は rollout confidence（生成中の信頼度）と経験的な難易度に基づいて問題に重要度を割り当て、その後 policy update を再重み付けします。目的は固定の計算予算内で学習可能な問題を優先することです。

この手法はどれほどの改善をもたらしますか？

CoDaPO は既存の RL 手法に対して 12 のベンチマークで一貫した改善を達成します。改善は、モデルがすでに解ける問題と依然として難しい問題を区別する、より効率的な計算配分から生じます。

arXiv:2606.07950：CoDaPO——推論のための信頼度/難易度適応型 RL 最適化