Istraživanje OSWorld: AI agenti za računalo često podbace pri ponavljanju zadatka
Zašto je bitno
Novo istraživanje pokazuje da AI agenti za upravljanje računalom koji jednom uspješno izvrše zadatak mogu podbaciti pri identičnom ponovljenom pokušaju, a tri ključna razloga su stohastičnost izvršavanja, ambiguitet specifikacije zadatka i varijabilnost ponašanja samog agenta.
Nova studija autora Gonzalez-Pumariega i suradnika te Xin Eric Wanga otkriva sustavni problem u evaluaciji AI agenata koji upravljaju računalom: jednokratno uspješno izvršavanje zadatka nije jamstvo da će agent uspjeti i drugi put.
Koje su tri glavne uzroke nestabilnosti?
Istraživanje identificira tri faktora koji zajednički stvaraju nepouzdanost agenata. Prvi je stohastičnost izvršavanja — svaki pokušaj obuhvaća slučajne elemente poput vremenskih varijacija u učitavanju sučelja, različitih rezultata samplinga iz modela i sitnih promjena u stanju operativnog sustava.
Drugi faktor je ambiguitet specifikacije zadatka. Isti zadatak može biti formuliran dovoljno neodređeno da se može izvršiti na više načina, od kojih su neki “uspješni” po jednom mjerilu, a “neuspješni” po drugom.
Treći je varijabilnost ponašanja samog agenta — ni kod identičnog ulaza agent ne donosi uvijek identične odluke, posebno u dužim lancima akcija gdje se male razlike kumulativno povećavaju.
Kako je OSWorld benchmark pomogao otkriti problem?
Autori su eksperimente proveli na OSWorld benchmarku, platformi za evaluaciju AI agenata u realnim operativnim sustavima i aplikacijama. Ključna metodološka intervencija bila je višestruko ponavljanje istih zadataka, a ne standardno jednokratno mjerenje.
Rezultati pokazuju da agent koji u jednom prolazu riješi zadatak u sljedećem prolazu može zapeti, krenuti drugim putem koji ne rezultira uspjehom, ili se zaglaviti u petlji. Takva nestabilnost ostaje nevidljiva u benchmarkovima koji agenta testiraju samo jednom po zadatku.
Zaključak je da objavljeni success rate brojevi u standardnim evaluacijama mogu biti precijenjeni jer ne uzimaju u obzir koliko puta od deset pokušaja agent stvarno uspijeva.
Što ovo znači za razvoj agenata?
Praktične posljedice su važne za svakoga tko gradi produkcijske sustave na računalnim agentima. Ako agent uspijeva u sedam od deset pokušaja, u produkciji to znači da tri od deset korisnika dobiju neuspjeh — što je za mnoge use caseove neprihvatljivo.
Autori preporučuju višekratnu evaluaciju kao standard, zajedno s mjerenjem varijance, a ne samo srednjeg uspjeha. Također sugeriraju bolju specifikaciju zadataka kako bi se smanjio ambiguitet i robusnije deterministič sučelje gdje je moguće.
Za istraživačku zajednicu to znači potrebu revidiranja kako izvještavaju rezultate, a za graditelje produkata potrebu dodatnih mehanizama poput retry logike, verifikacije ishoda i human-in-the-loop kontrola.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Izvori
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji