ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima
Zašto je bitno
Novi benchmark HORIZON sustavno analizira kako LLM agenti otkazuju na zadacima s dugim horizontom. Istrazivanje otkriva da se greske kumuliraju kroz visestruke korake, a cak i najbolji modeli gube fokus nakon 20+ akcija.
Istrazivacki tim predstavio je HORIZON, novi benchmark koji sustavno dijagnosticira gdje i zasto LLM agenti otkazuju na zadacima s dugim horizontom — onim koji zahtijevaju desettke ili stotine uzastopnih koraka.
Kljucna otkriCA
Umjesto da testira samo konacni rezultat, HORIZON analizira svaku tocku potencijalnog kvara kroz agentski lanac. Rezultati pokazuju:
- Kumulativna degradacija — svaki korak donosi malu vjerojatnost greske, ali kroz 20+ koraka to postaje gotovo sigurni kvar
- Gubitak konteksta — agenti postupno “zaboravljaju” originalni cilj kako im se kontekstni prozor puni
- Pogresan oporavak — kad agent napravi gresku, pokusaji oporavka cesto pogorsavaju situaciju
Zasto je vazno
Vecina postojecih benchmarka testira agente na kratkim zadacima (5-10 koraka). U stvarnom svijetu — autonomno kodiranje, istrazivanje, planiranje — zadaci imaju desetke do stotine koraka. HORIZON pokazuje da impresivni rezultati na kratkim benchmarcima ne znace pouzdanost na dugim zadacima.
PraktiCne posljedice
Rezultati sugeriraju da trenutni pristupi agentickom AI-u trebaju fundamentalne promjene u upravljanju kontekstom i oporavku od gresaka, a ne samo vece modele ili duze kontekstne prozore.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji