ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima
Novi benchmark HORIZON sustavno analizira kako LLM agenti otkazuju na zadacima s dugim horizontom. Istrazivanje otkriva da se greske kumuliraju kroz visestruke korake, a cak i najbolji modeli gube fokus nakon 20+ akcija.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istrazivacki tim predstavio je HORIZON, novi benchmark koji sustavno dijagnosticira gdje i zasto LLM agenti otkazuju na zadacima s dugim horizontom — onim koji zahtijevaju desettke ili stotine uzastopnih koraka.
Kljucna otkriCA
Umjesto da testira samo konacni rezultat, HORIZON analizira svaku tocku potencijalnog kvara kroz agentski lanac. Rezultati pokazuju:
- Kumulativna degradacija — svaki korak donosi malu vjerojatnost greske, ali kroz 20+ koraka to postaje gotovo sigurni kvar
- Gubitak konteksta — agenti postupno “zaboravljaju” originalni cilj kako im se kontekstni prozor puni
- Pogresan oporavak — kad agent napravi gresku, pokusaji oporavka cesto pogorsavaju situaciju
Zasto je vazno
Vecina postojecih benchmarka testira agente na kratkim zadacima (5-10 koraka). U stvarnom svijetu — autonomno kodiranje, istrazivanje, planiranje — zadaci imaju desetke do stotine koraka. HORIZON pokazuje da impresivni rezultati na kratkim benchmarcima ne znace pouzdanost na dugim zadacima.
PraktiCne posljedice
Rezultati sugeriraju da trenutni pristupi agentickom AI-u trebaju fundamentalne promjene u upravljanju kontekstom i oporavku od gresaka, a ne samo vece modele ili duze kontekstne prozore.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije