ArXiv Odysseys: realistic web agents benchmark CMU-a otkriva da SOTA frontier modeli postižu 44.5% uspjeha i 1.15% Trajectory Efficiency na long-horizon zadacima
CMU istraživači Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried i Ruslan Salakhutdinov objavili su 27. travnja 2026. ArXiv preprint Odysseys — benchmark od 200 long-horizon web zadataka iz autentičnih browsing sesija na živom internetu. Rubric-based evaluacija (prosjek 6.1 rubrika po zadatku) pokazuje da najjači frontier modeli postižu samo 44.5% success rate i 1.15% Trajectory Efficiency, otkrivajući ogromne nedostatke trenutnih web agenata.
Tim s Carnegie Mellon University-a (Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov) objavio je 27. travnja 2026. preprint Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks — novi benchmark koji pokazuje koliko su trenutni web agenti udaljeni od stvarne primjene.
Problem postojećih benchmarka
Citat iz abstracta:
“Existing web agent benchmarks have largely converged on short, single-site tasks that frontier models are approaching saturation on.”
Drugim riječima: WebArena, Mind2Web i slični benchmarci postaju “saturirani” — frontier modeli na njima postižu visoku točnost, što stvara dojam da je problem riješen. Realna web aplikacija je drukčija:
- Više stranica i više web sajtova istovremeno
- Sesije traju 10+ minuta
- Stranice se mijenjaju u stvarnom vremenu (cookies, pop-up, A/B testovi)
- Ciljevi nisu jednoznačni
Odysseys — što je novo?
Benchmark se sastoji od 200 long-horizon web zadataka izvedenih iz autentičnih browsing sesija testiranih na živom internetu. Svaki zadatak ima u prosjeku 6.1 rubriku za evaluaciju, umjesto binarnog pass/fail.
Rubric-based pristup donosi dva benefita:
- Granularniji uvid — koji dio zadatka agent rješava, koji ne
- Bolje slaganje s ljudskim sudom — autori navode da rubric eval pokazuje “improved alignment with human judgment compared to trajectory-level LLM evaluation”
Rezultati: jaz koji boli
Dvije ključne metrike za “strongest frontier models tested”:
- Success rate: 44.5% — manje od polovice zadataka uspješno
- Trajectory Efficiency: 1.15% — rubric score po koraku
Drugi broj je posebno zabrinjavajući. Niska Trajectory Efficiency znači da agent napravi mnogo akcija koje ne doprinose rješenju — luta po stranicama, klika krive linkove, možda eventualno uspije, ali putem kroz brute force, ne kroz sustavno planiranje.
Modeli pod testom
Abstract navodi “several leading frontier models” ali specifični modeli nisu imenovani u dohvaćenom dijelu. Vjerojatno uključuje GPT-5, Claude Opus 4.6/4.7, Gemini 3 kao tri glavna SOTA igrača za web agente.
Zašto je to važno?
Odysseys daje empirijski anti-hype uvid. Industrija agresivno gura “AI agente koji obavljaju zadatke umjesto vas” (OpenAI Managed Agents, Mistral Vibe, Anthropic Claude Code), ali realna web aplikacija pokazuje da:
- Modeli su daleko od human-level za multi-step web zadatke
- Postojeći benchmarci precijenjuju stvarnu sposobnost
- Efficient planning je veći deficit od “puk uspjeh”
Za enterprise: prije production deploya web agenta, treba mjeriti Trajectory Efficiency kao ravnopravnu metriku uz success rate. Inače plaća se token cijena za “eventualne uspjehe” koji su kraći od ručnog rada.
Česta pitanja
- Što razlikuje Odysseys od postojećih web agent benchmarka?
- Postojeći benchmarci su konvergirali na kratkim, single-site zadacima koje frontier modeli polagano saturiraju. Odysseys donosi 200 long-horizon zadataka iz autentičnih browsing sesija (više stranica, više koraka) na **živom internetu** — ne sintetičke staze. Dodatno, evaluacija je rubric-based (prosjek 6.1 rubrika po zadatku) umjesto binarnog pass/fail.
- Što je Trajectory Efficiency?
- Metrika koja mjeri rubric score po koraku — koliko 'korisnih' akcija agent napravi u prosjeku. Frontier modeli postižu samo 1.15% Trajectory Efficiency, što znači da agent napravi mnogo akcija koje ne doprinose rješenju, čak i kada eventualno uspije.
- Što ovaj benchmark otkriva?
- Frontier modeli postižu 44.5% success rate na realističnim long-horizon zadacima. Kombinirano s niskim Trajectory Efficiency-om, pokazuje da current-gen agenti 'eventualno uspijevaju' kroz brute-force, ne kroz sustavno planiranje. Otkriva istinski jaz između zatvorenih lab benchmarka i realnih web aplikacija.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
GitHub Copilot u Visual Studio dobiva debugger agenta i cloud agent sesije iz IDE-a
AWS Bedrock AgentCore: serverless MCP proxy s IAM, OAuth 2.0 JWT i CloudWatch observability za enterprise governance
AWS Bedrock AgentCore Memory: tri obrasca za dugoročnu memoriju agenata na razini namespacea uz IAM access control