🤖 24 AI
🟡 🤝 Agenti srijeda, 15. travnja 2026. · 1 min čitanja

ArXiv: HORIZON — gdje i zasto AI agenti zakazuju na dugim zadacima

Zašto je bitno

Novi benchmark HORIZON sustavno analizira kako LLM agenti otkazuju na zadacima s dugim horizontom. Istrazivanje otkriva da se greske kumuliraju kroz visestruke korake, a cak i najbolji modeli gube fokus nakon 20+ akcija.

Istrazivacki tim predstavio je HORIZON, novi benchmark koji sustavno dijagnosticira gdje i zasto LLM agenti otkazuju na zadacima s dugim horizontom — onim koji zahtijevaju desettke ili stotine uzastopnih koraka.

Kljucna otkriCA

Umjesto da testira samo konacni rezultat, HORIZON analizira svaku tocku potencijalnog kvara kroz agentski lanac. Rezultati pokazuju:

  • Kumulativna degradacija — svaki korak donosi malu vjerojatnost greske, ali kroz 20+ koraka to postaje gotovo sigurni kvar
  • Gubitak konteksta — agenti postupno “zaboravljaju” originalni cilj kako im se kontekstni prozor puni
  • Pogresan oporavak — kad agent napravi gresku, pokusaji oporavka cesto pogorsavaju situaciju

Zasto je vazno

Vecina postojecih benchmarka testira agente na kratkim zadacima (5-10 koraka). U stvarnom svijetu — autonomno kodiranje, istrazivanje, planiranje — zadaci imaju desetke do stotine koraka. HORIZON pokazuje da impresivni rezultati na kratkim benchmarcima ne znace pouzdanost na dugim zadacima.

PraktiCne posljedice

Rezultati sugeriraju da trenutni pristupi agentickom AI-u trebaju fundamentalne promjene u upravljanju kontekstom i oporavku od gresaka, a ne samo vece modele ili duze kontekstne prozore.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.