ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima

Novi benchmark HORIZON sustavno analizira kako LLM agenti otkazuju na zadacima s dugim horizontom. Istrazivanje otkriva da se greske kumuliraju kroz visestruke korake, a cak i najbolji modeli gube fokus nakon 20+ akcija.

Istrazivacki tim predstavio je HORIZON, novi benchmark koji sustavno dijagnosticira gdje i zasto LLM agenti otkazuju na zadacima s dugim horizontom — onim koji zahtijevaju desettke ili stotine uzastopnih koraka.

Kljucna otkriCA

Umjesto da testira samo konacni rezultat, HORIZON analizira svaku tocku potencijalnog kvara kroz agentski lanac. Rezultati pokazuju:

Kumulativna degradacija — svaki korak donosi malu vjerojatnost greske, ali kroz 20+ koraka to postaje gotovo sigurni kvar
Gubitak konteksta — agenti postupno “zaboravljaju” originalni cilj kako im se kontekstni prozor puni
Pogresan oporavak — kad agent napravi gresku, pokusaji oporavka cesto pogorsavaju situaciju

Zasto je vazno

Vecina postojecih benchmarka testira agente na kratkim zadacima (5-10 koraka). U stvarnom svijetu — autonomno kodiranje, istrazivanje, planiranje — zadaci imaju desetke do stotine koraka. HORIZON pokazuje da impresivni rezultati na kratkim benchmarcima ne znace pouzdanost na dugim zadacima.

PraktiCne posljedice

Rezultati sugeriraju da trenutni pristupi agentickom AI-u trebaju fundamentalne promjene u upravljanju kontekstom i oporavku od gresaka, a ne samo vece modele ili duze kontekstne prozore.

ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima

Kljucna otkriCA

Zasto je vazno

PraktiCne posljedice

Izvori

Povezane vijesti