ArXiv Odysseys: SOTA web agenti 44.5% / 1.15% efficiency

CMU istraživači Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried i Ruslan Salakhutdinov objavili su 27. travnja 2026. ArXiv preprint Odysseys — benchmark od 200 long-horizon web zadataka iz autentičnih browsing sesija na živom internetu. Rubric-based evaluacija (prosjek 6.1 rubrika po zadatku) pokazuje da najjači frontier modeli postižu samo 44.5% success rate i 1.15% Trajectory Efficiency, otkrivajući ogromne nedostatke trenutnih web agenata.

Tim s Carnegie Mellon University-a (Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov) objavio je 27. travnja 2026. preprint Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks — novi benchmark koji pokazuje koliko su trenutni web agenti udaljeni od stvarne primjene.

Problem postojećih benchmarka

Citat iz abstracta:

“Existing web agent benchmarks have largely converged on short, single-site tasks that frontier models are approaching saturation on.”

Drugim riječima: WebArena, Mind2Web i slični benchmarci postaju “saturirani” — frontier modeli na njima postižu visoku točnost, što stvara dojam da je problem riješen. Realna web aplikacija je drukčija:

Više stranica i više web sajtova istovremeno
Sesije traju 10+ minuta
Stranice se mijenjaju u stvarnom vremenu (cookies, pop-up, A/B testovi)
Ciljevi nisu jednoznačni

Odysseys — što je novo?

Benchmark se sastoji od 200 long-horizon web zadataka izvedenih iz autentičnih browsing sesija testiranih na živom internetu. Svaki zadatak ima u prosjeku 6.1 rubriku za evaluaciju, umjesto binarnog pass/fail.

Rubric-based pristup donosi dva benefita:

Granularniji uvid — koji dio zadatka agent rješava, koji ne
Bolje slaganje s ljudskim sudom — autori navode da rubric eval pokazuje “improved alignment with human judgment compared to trajectory-level LLM evaluation”

Rezultati: jaz koji boli

Dvije ključne metrike za “strongest frontier models tested”:

Success rate: 44.5% — manje od polovice zadataka uspješno
Trajectory Efficiency: 1.15% — rubric score po koraku

Drugi broj je posebno zabrinjavajući. Niska Trajectory Efficiency znači da agent napravi mnogo akcija koje ne doprinose rješenju — luta po stranicama, klika krive linkove, možda eventualno uspije, ali putem kroz brute force, ne kroz sustavno planiranje.

Modeli pod testom

Abstract navodi “several leading frontier models” ali specifični modeli nisu imenovani u dohvaćenom dijelu. Vjerojatno uključuje GPT-5, Claude Opus 4.6/4.7, Gemini 3 kao tri glavna SOTA igrača za web agente.

Zašto je to važno?

Odysseys daje empirijski anti-hype uvid. Industrija agresivno gura “AI agente koji obavljaju zadatke umjesto vas” (OpenAI Managed Agents, Mistral Vibe, Anthropic Claude Code), ali realna web aplikacija pokazuje da:

Modeli su daleko od human-level za multi-step web zadatke
Postojeći benchmarci precijenjuju stvarnu sposobnost
Efficient planning je veći deficit od “puk uspjeh”

Za enterprise: prije production deploya web agenta, treba mjeriti Trajectory Efficiency kao ravnopravnu metriku uz success rate. Inače plaća se token cijena za “eventualne uspjehe” koji su kraći od ručnog rada.

Česta pitanja

Što razlikuje Odysseys od postojećih web agent benchmarka?

Postojeći benchmarci su konvergirali na kratkim, single-site zadacima koje frontier modeli polagano saturiraju. Odysseys donosi 200 long-horizon zadataka iz autentičnih browsing sesija (više stranica, više koraka) na **živom internetu** — ne sintetičke staze. Dodatno, evaluacija je rubric-based (prosjek 6.1 rubrika po zadatku) umjesto binarnog pass/fail.

Što je Trajectory Efficiency?

Metrika koja mjeri rubric score po koraku — koliko 'korisnih' akcija agent napravi u prosjeku. Frontier modeli postižu samo 1.15% Trajectory Efficiency, što znači da agent napravi mnogo akcija koje ne doprinose rješenju, čak i kada eventualno uspije.

Što ovaj benchmark otkriva?

Frontier modeli postižu 44.5% success rate na realističnim long-horizon zadacima. Kombinirano s niskim Trajectory Efficiency-om, pokazuje da current-gen agenti 'eventualno uspijevaju' kroz brute-force, ne kroz sustavno planiranje. Otkriva istinski jaz između zatvorenih lab benchmarka i realnih web aplikacija.

ArXiv Odysseys: realistic web agents benchmark CMU-a otkriva da SOTA frontier modeli postižu 44.5% uspjeha i 1.15% Trajectory Efficiency na long-horizon zadacima