🟢 🤖 モデル 2026年5月5日火曜日 · 3 分で読めます ·

arXiv:2605.02572: 長いホライズンがLLM学習を不安定化 — ICML 2026論文が「ホライズン汎化」を解決策として提案

arXiv:2605.02572 ↗

編集イラスト:ニューラルノードとデータフローが収束する亀裂の入った水平線

ICML 2026採択論文が、タスクホライズン長を増やすと探索問題とクレジット割り当て問題により深刻なLLM学習不安定が生じることを実証的に示しています。提案する解決策:学習時にホライズンを短縮し、推論時に明示的な「ホライズン汎化」メカニズムを使用する方法です。この論文はフロンティアモデル学習におけるタスクホライズンのスケーリングに関する最初の実証的なルールを確立しています。

🤖

この記事はAIにより一次情報源から生成されました。

ICML 2026に採択された新しいarXivプレプリント(2605.02572)は、エージェント型および推論フロンティアモデルの学習における重要な課題の一つに関する最初の体系的な実証ルールを確立しています:タスクホライズン(報酬シグナルまでのステップ数)が増加するにつれて現れる不安定性です。主な発見:長いホライズンは2つの別々のメカニズム——探索とクレジット割り当て——を通じて学習を不安定化させます。

不安定化の実証的メカニズムは何ですか?

著者たちは2つの独立したアブレーションを中心に論文を構成しています。最初のアブレーションは探索問題を分離します:ホライズンが増大するにつれて、モデルが成功した軌跡にランダムに遭遇する確率は指数関数的に低下します。これは報酬シグナルがまばらになり、勾配が薄くなることを意味します——モデルはトレーニングステップごとに受け取る有益な更新が少なくなります。

2番目のアブレーションはクレジット割り当て問題に焦点を当てています:長いホライズンの後に報酬が来ると、勾配は多くのステップを通じて逆伝播する必要があります。ステップあたりの勾配分散はホライズン長とともに増大します——実質的に、学習での勾配ノイズが一定の長さを超えるとシグナルを上回り、モデルは収束を止めるか振動し始めます。

これらの問題は単独ではRL文献において知られています。論文の貢献は実証的な定量化にあります——著者たちはモデルサイズとホライズン長に応じて特定のLLM学習がいつ不安定化し始めるかを予測するスケーリングルールを提供しています。

「ホライズン汎化」解決策とは何ですか?

提案された解決策は方法論的には最小限ですが概念的に重要です:クレジット割り当てのノイズが少ない短いホライズンでモデルを学習させ、その後推論時に明示的なホライズン汎化メカニズムを起動します——学習時に見た軌跡より長い軌跡に対して同じ推論パターンを適用するモデルの能力です。これはシーケンス間学習における長さ汎化に類似していますが、多段階推論とエージェント型シーケンスに適用されます。

実際的な影響:エージェント型モデルを学習しているチーム(Anthropic、OpenAI、Google DeepMind)は1,000ステップのシーケンスで直接学習する必要がないかもしれません;代わりに50〜100ステップで学習し、ホライズン汎化を推論時の技術として使用できます。

これがフロンティアモデル設計にとって重要な理由は?

この論文は、長いエージェント型シーケンスが実際のデプロイメントで増加するにつれてますます関連性を持つ問題に取り組んでいます——Claude Code、Devin、OpenAI Codexなどのツールは1回のエージェントセッションで定期的に200〜500ステップを実行します。論文の発見が確認されれば、フロンティアラボはエージェント型スケーリングの一部を「ますます長いホライズンで学習する」から「短く学習して長く汎化する」アプローチに移行する可能性があります。

限界:この論文は主に実証的(不安定化が正確にどこで発生するかについての閉じた形の理論的境界はない)で、特定のRLセットアップに焦点を当てています。大規模な商業フロンティアモデルのトレーニングパイプラインの文脈でこれらのルールを検証することが論理的な次のステップです——それは競争上の理由からおそらく未発表のままとなっています。

よくある質問

LLM学習における「タスクホライズン」とは何ですか?
タスクホライズンは、モデルが報酬シグナルを受け取るまでに経なければならないステップ数です——例えばタスクが成功または失敗するまでのエージェントのアクション数です。ホライズンが長いほど、どのステップが成功に貢献したかをモデルが学習するのが難しくなります(クレジット割り当て問題)。
長いホライズンはなぜ学習を不安定化させますか?
実証的証拠は2つの原因を明らかにしています:探索問題(モデルが成功した軌跡にランダムに遭遇することが稀)とクレジット割り当て問題(成功が来たとき、勾配は多くのステップを遡って伝播する必要があり、ノイズと分散をもたらす)。勾配分散はホライズン長とともに増大します。
「ホライズン汎化」解決策とは何ですか?
アプローチはクレジット割り当てのノイズが少ない短いホライズンでモデルを学習させ、その後推論時に明示的な「ホライズン汎化」を起動するものです——学習時より長いシーケンスに対して同じ推論パターンを適用するモデルの能力です。