Istraživanje OSWorld: AI agenti za računalo često podbace pri ponavljanju zadatka
Novo istraživanje pokazuje da AI agenti za upravljanje računalom koji jednom uspješno izvrše zadatak mogu podbaciti pri identičnom ponovljenom pokušaju, a tri ključna razloga su stohastičnost izvršavanja, ambiguitet specifikacije zadatka i varijabilnost ponašanja samog agenta.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Nova studija autora Gonzalez-Pumariega i suradnika te Xin Eric Wanga otkriva sustavni problem u evaluaciji AI agenata koji upravljaju računalom: jednokratno uspješno izvršavanje zadatka nije jamstvo da će agent uspjeti i drugi put.
Koje su tri glavne uzroke nestabilnosti?
Istraživanje identificira tri faktora koji zajednički stvaraju nepouzdanost agenata. Prvi je stohastičnost izvršavanja — svaki pokušaj obuhvaća slučajne elemente poput vremenskih varijacija u učitavanju sučelja, različitih rezultata samplinga iz modela i sitnih promjena u stanju operativnog sustava.
Drugi faktor je ambiguitet specifikacije zadatka. Isti zadatak može biti formuliran dovoljno neodređeno da se može izvršiti na više načina, od kojih su neki “uspješni” po jednom mjerilu, a “neuspješni” po drugom.
Treći je varijabilnost ponašanja samog agenta — ni kod identičnog ulaza agent ne donosi uvijek identične odluke, posebno u dužim lancima akcija gdje se male razlike kumulativno povećavaju.
Kako je OSWorld benchmark pomogao otkriti problem?
Autori su eksperimente proveli na OSWorld benchmarku, platformi za evaluaciju AI agenata u realnim operativnim sustavima i aplikacijama. Ključna metodološka intervencija bila je višestruko ponavljanje istih zadataka, a ne standardno jednokratno mjerenje.
Rezultati pokazuju da agent koji u jednom prolazu riješi zadatak u sljedećem prolazu može zapeti, krenuti drugim putem koji ne rezultira uspjehom, ili se zaglaviti u petlji. Takva nestabilnost ostaje nevidljiva u benchmarkovima koji agenta testiraju samo jednom po zadatku.
Zaključak je da objavljeni success rate brojevi u standardnim evaluacijama mogu biti precijenjeni jer ne uzimaju u obzir koliko puta od deset pokušaja agent stvarno uspijeva.
Što ovo znači za razvoj agenata?
Praktične posljedice su važne za svakoga tko gradi produkcijske sustave na računalnim agentima. Ako agent uspijeva u sedam od deset pokušaja, u produkciji to znači da tri od deset korisnika dobiju neuspjeh — što je za mnoge use caseove neprihvatljivo.
Autori preporučuju višekratnu evaluaciju kao standard, zajedno s mjerenjem varijance, a ne samo srednjeg uspjeha. Također sugeriraju bolju specifikaciju zadataka kako bi se smanjio ambiguitet i robusnije deterministič sučelje gdje je moguće.
Za istraživačku zajednicu to znači potrebu revidiranja kako izvještavaju rezultate, a za graditelje produkata potrebu dodatnih mehanizama poput retry logike, verifikacije ishoda i human-in-the-loop kontrola.
Česta pitanja
- Što su computer use agents?
- Computer use agents su AI agenti koji upravljaju računalom poput čovjeka — koriste miš, tipkovnicu i čitaju zaslon kako bi obavljali zadatke u stvarnim aplikacijama.
- Što je OSWorld benchmark?
- OSWorld je benchmark za evaluaciju AI agenata u realnim operativnim sustavima, gdje se mjeri njihova sposobnost izvršavanja zadataka kroz aplikacije i sučelja.
- Zašto jednokratno testiranje nije dovoljno?
- Jednokratno testiranje skriva sustavne probleme pouzdanosti jer agent može slučajno uspjeti ili podbaciti; tek višestruka ponavljanja otkrivaju stvarnu stabilnost.
Izvori
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije