Lange Horizonte destabilisieren LLM-Training — ICML 2026

Eine für ICML 2026 angenommene Arbeit weist empirisch nach, dass die Verlängerung des Aufgabenhorizonts erhebliche Instabilität im LLM-Training verursacht — bedingt durch Probleme bei Exploration und Credit Assignment. Vorgeschlagene Lösung: Verkürzung des Horizonts während des Trainings in Kombination mit einem expliziten „Horizon Generalization”-Mechanismus zur Inferenzzeit. Die Arbeit etabliert die ersten empirischen Regeln für die Skalierung des Aufgabenhorizonts bei Frontier-Modellen.

Ein neuer arXiv-Preprint (2605.02572), angenommen für ICML 2026, etabliert die ersten systematischen empirischen Regeln für eine der zentralen Herausforderungen beim Training agentischer und reasoning-orientierter Frontier-Modelle: die Instabilität, die mit zunehmender Länge des Aufgabenhorizonts (Anzahl der Schritte vor dem Reward-Signal) auftritt. Hauptbefund: Lange Horizonte destabilisieren das Training durch zwei separate Mechanismen — Exploration und Credit Assignment.

Welche empirischen Mechanismen verursachen die Destabilisierung?

Die Autoren strukturieren die Arbeit um zwei voneinander unabhängige Ablationen. Die erste isoliert das Exploration-Problem: Mit wachsendem Horizont sinkt die Wahrscheinlichkeit, dass das Modell zufällig auf eine erfolgreiche Trajektorie stößt, exponentiell. Das bedeutet, dass das Reward-Signal selten wird und der Gradient verarmt — das Modell erhält pro Trainingsschritt wenige informative Aktualisierungen.

Die zweite Ablation fokussiert das Credit-Assignment-Problem: Wenn der Reward nach einem langen Horizont eintrifft, muss der Gradient durch viele Schritte rückwärts propagiert werden. Die Gradientenvarianz pro Schritt wächst mit der Horizontlänge — effektiv überlagert das Trainingsrauschen das Signal bei einer bestimmten Länge, und das Modell konvergiert nicht mehr oder beginnt zu oszillieren.

Einzeln betrachtet sind beide Probleme aus der RL-Literatur bekannt. Der Beitrag der Arbeit liegt in der empirischen Quantifizierung — die Autoren liefern Skalierungsregeln, die vorhersagen, wann konkrete LLM-Trainingsläufe abhängig von der Modellgröße und der Horizontlänge zu destabilisieren beginnen.

Was ist die „Horizon Generalization”-Lösung?

Die vorgeschlagene Lösung ist methodisch minimal, aber konzeptionell bedeutsam: Das Modell wird auf kürzeren Horizonten trainiert, in denen das Credit Assignment weniger verrauscht ist, und zur Inferenzzeit wird ein expliziter Horizon-Generalization-Mechanismus aktiviert — die Fähigkeit des Modells, dasselbe Reasoning-Muster auf längere Trajektorien anzuwenden, als im Training beobachtet. Dies ist analog zur Length Generalization beim Sequence-to-Sequence-Learning, jedoch angewendet auf Multi-Step-Reasoning und agentische Sequenzen.

Praktische Implikationen: Teams, die agentische Modelle trainieren (Anthropic, OpenAI, Google DeepMind), müssen möglicherweise nicht direkt auf 1000-Schritt-Sequenzen trainieren; stattdessen können sie auf 50–100 Schritten trainieren und Horizon Generalization als Inference-Time-Technik nutzen.

Warum ist dies für das Design von Frontier-Modellen relevant?

Die Arbeit adressiert eine Frage, die mit dem Wachstum langer agentischer Sequenzen in realen Bereitstellungen zunehmend an Relevanz gewinnt — Claude Code, Devin, OpenAI Codex und ähnliches Tooling führen regelmäßig 200 bis 500 Schritte in einer einzigen agentischen Sitzung aus. Wenn sich die Befunde der Arbeit bestätigen, werden Frontier-Labore vermutlich einen Teil der agentischen Skalierung von „immer längeren Horizonten trainieren” hin zu einem „kurz trainieren, lang generalisieren”-Ansatz verschieben.

Limitationen: Die Arbeit ist primär empirisch (keine geschlossene theoretische Schranke dafür, „wo genau die Destabilisierung eintritt”) und auf bestimmte RL-Setups fokussiert. Die Validierung dieser Regeln im Kontext großer kommerzieller Frontier-Model-Trainings-Pipelines wäre der nächste logische Schritt — bleibt aus Wettbewerbsgründen jedoch wahrscheinlich unveröffentlicht.

Häufig gestellte Fragen

Was bedeutet „Task Horizon” im LLM-Training?

Der Task Horizon ist die Anzahl von Schritten, die ein Modell durchführen muss, bevor es ein Reward-Signal erhält — z. B. die Anzahl agentischer Aktionen, bevor eine Aufgabe gelingt oder fehlschlägt. Je länger der Horizont, desto schwieriger ist es für das Modell zu lernen, welche Schritte zum Erfolg beigetragen haben (Credit-Assignment-Problem).

Warum destabilisieren lange Horizonte das Training?

Empirische Belege zeigen zwei Ursachen: das Exploration-Problem (das Modell trifft selten auf erfolgreiche Sequenzen) und das Credit-Assignment-Problem (wenn der Erfolg eintritt, muss der Gradient durch viele Schritte rückwärts propagiert werden, was Rauschen und Varianz einführt). Die Gradientenvarianz wächst mit der Horizontlänge.

Was ist die „Horizon Generalization”-Lösung?

Der Ansatz besteht darin, das Modell auf kürzeren Horizonten zu trainieren, bei denen das Credit Assignment weniger verrauscht ist, und dann zur Inferenzzeit explizit „Horizon Generalization” zu aktivieren — die Fähigkeit des Modells, dasselbe Reasoning-Muster auf längeren Sequenzen anzuwenden, als es im Training gesehen hat.

arXiv:2605.02572: Lange Horizonte destabilisieren das LLM-Training — ICML-2026-Paper schlägt „Horizon Generalization” als Lösung vor

Welche empirischen Mechanismen verursachen die Destabilisierung?

Was ist die „Horizon Generalization”-Lösung?

Warum ist dies für das Design von Frontier-Modellen relevant?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten