ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima
Zašto je bitno
Novi benchmark HORIZON sustavno analizira kako LLM agenti otkazuju na zadacima s dugim horizontom. Istrazivanje otkriva da se greske kumuliraju kroz visestruke korake, a cak i najbolji modeli gube fokus nakon 20+ akcija.
Istrazivacki tim predstavio je HORIZON, novi benchmark koji sustavno dijagnosticira gdje i zasto LLM agenti otkazuju na zadacima s dugim horizontom — onim koji zahtijevaju desettke ili stotine uzastopnih koraka.
Kljucna otkriCA
Umjesto da testira samo konacni rezultat, HORIZON analizira svaku tocku potencijalnog kvara kroz agentski lanac. Rezultati pokazuju:
- Kumulativna degradacija — svaki korak donosi malu vjerojatnost greske, ali kroz 20+ koraka to postaje gotovo sigurni kvar
- Gubitak konteksta — agenti postupno “zaboravljaju” originalni cilj kako im se kontekstni prozor puni
- Pogresan oporavak — kad agent napravi gresku, pokusaji oporavka cesto pogorsavaju situaciju
Zasto je vazno
Vecina postojecih benchmarka testira agente na kratkim zadacima (5-10 koraka). U stvarnom svijetu — autonomno kodiranje, istrazivanje, planiranje — zadaci imaju desetke do stotine koraka. HORIZON pokazuje da impresivni rezultati na kratkim benchmarcima ne znace pouzdanost na dugim zadacima.
PraktiCne posljedice
Rezultati sugeriraju da trenutni pristupi agentickom AI-u trebaju fundamentalne promjene u upravljanju kontekstom i oporavku od gresaka, a ne samo vece modele ili duze kontekstne prozore.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
arXiv:2604.24697: SciCrafter pokazuje da GPT-5.2, Gemini 3 Pro i Claude Opus 4.5 plateauiraju na ~26% u Minecraft discovery-to-application testu
AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
OpenAI objavio Symphony: open-source specifikaciju za orkestraciju Codex agenata koja issue trackere pretvara u 'always-on' inženjerske sustave