🟡 🤝 Agenti petak, 1. svibnja 2026. · 2 min čitanja ·

WindowsWorld benchmark: vodeći računalni agenti padaju ispod 21% uspješnosti na zadacima koji obuhvaćaju više desktop aplikacija

Editorial illustration: desktop ekran s nekoliko otvorenih prozora i strelica koja povezuje aplikacije u workflow

WindowsWorld je novi benchmark autonomnih GUI agenata koji testira 181 zadatak s prosječno 5,0 podciljeva kroz 17 desktop aplikacija na temelju 16 zanimanja. Vodeći računalni (computer-use) agenti postigli su manje od 21% uspješnosti na zadacima koji prelaze granicu jedne aplikacije, što otkriva veliki jaz između izoliranih testova poput OSWorlda i stvarnog profesionalnog rada s uvjetnim rasuđivanjem između tri ili više programa.

Istraživački tim s harbinske Tehnološke Industrijske Akademije (Jinchao Li, Yunxin Li, Chenrui Zhao, Zhenran Xu, Baotian Hu i Min Zhang) objavio je 30. travnja 2026. na ArXivu novi benchmark za autonomne GUI agente. WindowsWorld pomiče fokus s izoliranih zadataka u jednoj aplikaciji prema realnom profesionalnom radu koji prelazi granice više programa, i otkriva da vodeći računalni agenti na takvim zadacima postižu manje od 21% uspješnosti.

Što WindowsWorld mjeri drugačije od OSWorlda?

OSWorld i srodni benchmarci pretežno mjere agente unutar jedne aplikacije: otvori preglednik, klikni dva puta, riješi formu. WindowsWorld eksplicitno pokriva multi-app radne tokove — na primjer, izvuci podatke iz tablice u Excelu, pripremi e-mail prijedlog u klijentu i napravi prezentaciju s rezultatima u alatu za prezentacije, sve u jednom zadatku. 78% od ukupno 181 zadataka su inherentno višeaplikacijska, a prosječan zadatak ima 5,0 podciljeva (sub-goals) kroz 17 različitih desktop aplikacija. Zadaci su generirani kroz multi-agent okvir koji vode 16 profesionalnih uloga (zanimanja), a potom rafinirani ljudskim pregledom i pokrenuti u simuliranom okruženju.

Zašto agenti padaju kad zadatak prelazi tri aplikacije?

Glavni eksperimentalni nalaz autora je nedosljedan između benchmarka. Iako vodeći agenti dobro rade na single-app zadacima, na multi-app workflowu padaju ispod 21% uspješnosti. Konkretni problemi su uvjetno rasuđivanje (conditional judgment) između tri ili više aplikacija — agenti zastaju na ranim podciljevima ili ponavljaju iste korake. Drugi problem je niska efikasnost izvršavanja: agenti čak premašuju ljudski plafon broja koraka, ali ipak ne završe zadatak. Drugim riječima, problem nije isključivo u koracima nego u sposobnosti održavanja stanja kroz kontekstne prijelaze između programa.

Implikacije za primjenu agenata u uredskom radu

Računalni agenti (computer-use) su među najbrže rastućim AI proizvodima — Anthropic, OpenAI i Google DeepMind aktivno promoviraju agente kao zamjenu za rutinski uredski rad. WindowsWorld signalizira da je trenutna generacija agenata daleko od pouzdanog izvršavanja višeaplikacijskih zadataka karakterističnih za stvarni profesionalni svakodnevni rad. Benchmark bi trebao postati realan smjer pomaka u sljedećoj generaciji agenata, slično kao što je SWE-bench definirao smjer za coding agente.

Česta pitanja

Koliko zadataka i aplikacija pokriva WindowsWorld?
Benchmark sadrži 181 zadataka s prosječno 5,0 podciljeva po zadatku, raspoređenih kroz 17 uobičajenih desktop aplikacija. 78% zadataka je inherentno višeaplikacijsko.
Koja je uspješnost najboljih GUI agenata?
Svi testirani vodeći agenti za rad s računalom postigli su manje od 21% uspješnosti na multi-app zadacima — drastično niže nego na izoliranim single-app testovima.
Po čemu se WindowsWorld razlikuje od OSWorlda?
OSWorld i sličan benchmarci mjere izolirane single-app zadatke, dok je WindowsWorld eksplicitno orijentiran na cross-application workflow s uvjetnim grananjem koji je tipičan za profesionalni rad.
🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.