🤖 24 AI
🟢 🤖 Modeli nedjelja, 19. travnja 2026. · 3 min čitanja

LLM-ovi uče najkraći put na grafovima — ali padaju kad se produlji horizont zadatka

Editorial ilustracija: graf s čvorovima i putevima, dugi horizont koji blijedi u daljini

Zašto je bitno

Novi arXiv rad istražuje sistematsku generalizaciju LLM-ova na problemu najkraćeg puta u grafu po dvije dimenzije: prostorni transfer na neviđene karte radi dobro, ali skaliranje duljinom horizonta dosljedno puca zbog rekurzivne nestabilnosti. Zaključak ima direktne implikacije za autonomne agente — pokrivenost trening podataka definira granicu sposobnosti, RL poboljšava stabilnost ali ne proširuje granice, inference-time scaling pomaže ali ne rješava length-scaling problem.

Što se testiralo?

Tim istraživača Tong, Ye, Borovykh i Shokri objavio je na arXivu rad koji sustavno analizira može li LLM postići sistematsku generalizaciju na klasičnom algoritamskom problemu — pronalaženju najkraćeg puta u grafu. Testiranje je obuhvaćalo dvije nezavisne dimenzije generalizacije:

  1. Prostorni transfer — može li model koji je učio na određenom skupu grafova rješavati probleme na neviđenim kartama s drugačijim topologijama?
  2. Skaliranje horizontom — može li model koji je učio na kraćim putevima (recimo, 5-10 koraka) ispravno riješiti dulje putove (50+ koraka)?

Ova metodologija je namjerno šira od standardnih benchmark tipova — ne mjeri samo jesu li pitanja nova, nego jesu li zahtjevi strukturno zahtjevniji od onog što je model vidio u treningu.

Što su našli?

Rezultati su dosljedni i vrijedni pažnje:

  • Prostorni transfer: uspješan. Modeli koji nauče pronalaziti putove u skupu grafova uspješno generaliziraju na neviđene topologije iste veličine. To znači da je “naučiti algoritam” u nekoj mjeri moguće.

  • Length scaling: dosljedan neuspjeh. Kad se duljina puta produlji izvan treninškog raspona, modeli padaju zbog rekurzivne nestabilnosti — male greške u jednom koraku akumuliraju se eksponencijalno do kraja.

Dodatno su testirali tri intervencije:

  • Pokrivenost podataka definira granicu sposobnosti — model zna ono što je vidio u treningu, skaliranje preko toga ne funkcionira.
  • RL (reinforcement learning) poboljšava stabilnost u trening rasponu, ali ne proširuje granice generalizacije.
  • Inference-time scaling (više token-budgeta, chain-of-thought) pomaže, ali ne rješava osnovni length-scaling problem.

Zašto je ovo bitno za autonomne agente?

Mnoge praktične agent zadaće zahtijevaju dug horizont: multi-step planiranje, research, software engineering projekti koji traju danima, iterativno debagiranje složenog sustava. Ako LLM-ovi strukturalno ne mogu skalirati duljinom — što ovaj rad sugerira — onda je autonomnost agenata fundamentalno ograničena veličinom problema koji su vidjeli u treningu.

To se poklapa s ranijim nalazima (npr. LongCoT benchmark gdje GPT 5.2 postiže 9,8 % na dugom chain-of-thought razsuđivanju): naizgled najjači modeli ruše se kad se problem produlji.

Što to znači za praksu?

Istraživači ne tvrde da je problem nerješiv, ali identificiraju tri neizbiježne istine:

  1. Sintetski dataset coverage mora eksplicitno uključivati dugačke putove — inače model nikad neće znati kako da ih obrađuje.
  2. RL i inference-time scaling nisu čarobni štapić — oni poboljšavaju ono što je model već naučio, ali ne dodaju novu sistematsku sposobnost.
  3. Arhitekturne promjene (hijerarhijski agenti, planiranje s eksplicitnim state managementom) mogle bi biti nužne za stvarni length generalization.

Za AI news čitatelja zaključak je: kad sljedeći put pročitate da model radi “autonomne research projekte”, pitanje je koliko je taj horizont zapravo dubok, i je li problem unutar ili izvan trening raspona tog modela.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.