Long horizons destabiliziraju LLM trening — ICML 2026

ICML 2026 prihvaćen rad empirijski dokazuje da povećanje duljine task horizonta uzrokuje ozbiljnu nestabilnost LLM treninga zbog problema exploration i credit assignment. Rješenje koje predlažu: skraćivanje horizonta tijekom treninga uz eksplicitan 'horizon generalization' mehanizam na inferenci. Rad postavlja prva empirijska pravila za skaliranje task horizonta kod frontier modela.

Novi arXiv preprint (2605.02572), prihvaćen za ICML 2026, postavlja prva sustavna empirijska pravila za jedan od ključnih izazova u treniranju agentnih i reasoning frontier modela: nestabilnost koja se pojavljuje kako se task horizon (broj koraka prije reward signala) povećava. Glavni nalaz: dugi horizonti destabiliziraju trening kroz dva odvojena mehanizma — exploration i credit assignment.

Koji su empirijski mehanizmi destabilizacije?

Autori rad strukturiraju oko dvije neovisne ablacije. Prva izolira exploration problem: kako horizon raste, vjerojatnost da model slučajno naiđe na uspješnu trajektoriju opada eksponencijalno. To znači da reward signal postaje rijedak, a gradijent suh — model dobiva malo informativnih ažuriranja po training step-u.

Druga ablacija fokusira credit assignment problem: kad reward stigne nakon dugog horizonta, gradient mora propagirati kroz mnogo koraka unatrag. Variance gradijenta po koraku raste s duljinom horizonta — efektivno, šum gradijenta u treninguju nadmašuje signal pri određenoj duljini, i model prestaje konvergirati ili počinje oscilirati.

Pojedinačno, oba problema su poznata u RL literaturi. Doprinos rada je u empirijskoj kvantifikaciji — autori daju scaling rules koje predviđaju kada će konkretni LLM trening počiniti destabilizirati ovisno o veličini modela i duljini horizonta.

Što je ‘horizon generalization’ rješenje?

Predloženo rješenje je metodološki minimalan ali konceptualno bitan: trenirati model na kraćim horizontima, gdje je credit assignment manje šumovit, a zatim na inferenci aktivirati eksplicitan horizon generalization mehanizam — sposobnost modela da primijeni isti reasoning pattern na duljim trajektorijama nego što je vidio u treningu. To je analogno length generalization u sequence-to-sequence learning, ali primijenjeno na multi-step reasoning i agentne sekvence.

Praktične implikacije: timovi koji treniraju agentne modele (Anthropic, OpenAI, Google DeepMind) možda neće trebati direktno trenirati na 1000-step sekvencama; umjesto toga, mogu trenirati na 50-100 koraka i koristiti horizon generalization kao inference-time tehniku.

Zašto je ovo važno za frontier model dizajn?

Rad pristupa pitanju koje postaje sve relevantnije s rastom dugih agentnih sekvenci u realnim deployment-ima — Claude Code, Devin, OpenAI Codex i slični tooling redovito izvršavaju 200-500 koraka u jednoj agentnoj sesiji. Ako se nalazi rada potvrde, frontier labovi će vjerojatno pomaknuti dio agentnog skaliranja s “treniraj na sve dužim horizontima” prema “treniraj kratko, generaliziraj na dugačko” pristupu.

Limitacije: rad je primarno empirijski (no closed-form theoretical bound for “where exactly destabilization occurs”), i fokusiran na specifične RL setup-e. Validation ovih pravila u kontekstu velikih commercial frontier model trening pipeline-a je sljedeći logičan korak — koji vjerojatno ostaje neobjavljen zbog kompetitivnih razloga.

Česta pitanja

Što je 'task horizon' u LLM treningu?

Task horizon je broj koraka koje model mora provesti prije nego što dobiva reward signal — npr. broj agentnih akcija prije nego što task uspije ili padne. Što je horizon dulji, to je teže za model naučiti koji su koraci doprinijeli uspjehu (credit assignment problem).

Zašto dugi horizonti destabiliziraju trening?

Empirijski dokazi pokazuju dva uzroka: exploration problem (model rijetko nailazi na uspješne sekvence) i credit assignment problem (kad uspjeh dođe, gradijent se mora propagirati kroz mnogo koraka unatrag, što uvodi šum i variance). Variance gradijenta raste s duljinom horizonta.

Što je 'horizon generalization' rješenje?

Pristup je trenirati model na kraćim horizontima, gdje je credit assignment manje šumovit, a zatim na inferenci eksplicitno aktivirati 'horizon generalization' — sposobnost modela da primijeni isti reasoning pattern na duljim sekvencama nego što je vidio u treningu.

arXiv:2605.02572: Dugi horizonti destabiliziraju LLM trening — ICML 2026 papir nudi 'horizon generalization' kao rješenje

Koji su empirijski mehanizmi destabilizacije?

Što je ‘horizon generalization’ rješenje?

Zašto je ovo važno za frontier model dizajn?

Česta pitanja

Izvori

Povezane vijesti