arXiv:2605.31584:LongTraceRLは検索エージェントの軌跡から長文脈推論を学習する
LongTraceRLは長文脈推論のための新しい強化学習手法です。検索エージェントの軌跡から段階的なディストラクターを伴う訓練データを構築し、エンティティレベルのプロセス監督を用いるrubric報酬を活用して、40億から300億パラメータのモデルで5つのベンチマークにわたり一貫した改善を達成します。
この記事はAIにより一次情報源から生成されました。
論文arXiv:2605.31584は、長文脈推論——大規模言語モデルが大量の妨害コンテンツの中で重要な情報を見つけ、結びつけるのに苦労する状況——という課題に取り組む強化学習(reinforcement learning, RL)手法LongTraceRLを提示します。
長文脈推論とは何ですか?
長文脈推論とは、モデルが非常に長い入力(たとえば複数の文書を同時に)に基づいて結論を導かなければならないことを意味します。問題は、関連するデータがしばしば多数の無関係な段落の中に「希釈」されてしまうことです。LongTraceRLは検証可能な報酬を伴うRL (RLVR) を用い、弱いディストラクターと疎なフィードバック信号に制約された手法を乗り越えます。
訓練データはどのように生成されますか?
データは検索エージェントの軌跡(trajectories)から、2つのレベルのディストラクター(distractors)を伴って構築されます。第1のレベルはエージェントが開いたが引用しなかった文書で、関連性があるように見えたため高度に紛らわしいものです。第2のレベルは検索結果に現れたがエージェントが一度も開かなかった文書で、低い紛らわしさになります。このような段階的アプローチは、ランダムサンプリングや単一検索からの構築を上回ります。
rubric報酬とは何ですか?
Rubric報酬(基準に基づく報酬)は、各推論連鎖に沿ったゴールドエンティティをエンティティレベルの細かなプロセス監督として用います。これにより、最終的な答えの検証だけでなく、中間ステップの誘導が可能になります。システムは正の報酬のみの戦略を適用します。正しい答えの場合にのみ推論の質を報酬とすることで、「reward hacking」を防ぎます。
結果はどうですか?
テストは5つの長文脈ベンチマークと40億から300億パラメータ規模のモデルを対象としています。LongTraceRLは強力なベースライン手法に対して一貫した改善を示し、徹底的で証拠に基づいた推論を促します。資料は著者のGitHubリポジトリで入手可能です。
よくある質問
- 段階的なディストラクターとは何ですか?
- 2つのレベルの妨害文書です。エージェントが開いたが引用しなかったもの(高い紛らわしさ)と、結果に現れたが開かれなかったもの(低い紛らわしさ)です。
- いくつのベンチマークでテストされましたか?
- LongTraceRLは5つの長文脈ベンチマークで、40億から300億パラメータ規模のモデルを対象にテストされ、一貫した改善を示しました。