GUI-SD: self-distillation za GUI agente bolji od GRPO RL

Yan Zhang, Daiqing Wu i Huawen Shen predstavili su GUI-SD — prvi on-policy self-distillation (OPSD) framework specifično za GUI grounding, sposobnost AI agenata da mapiraju prirodnojezične upute na vizualne koordinate elemenata sučelja. Sustav koristi privilegirani vizualni kontekst (bounding box i Gaussian soft mask) i entropy-guided distillation. Na šest reprezentativnih GUI grounding benchmarkova GUI-SD dosljedno nadmašuje GRPO-bazirane RL metode.

Yan Zhang, Daiqing Wu i Huawen Shen objavili su 1. svibnja 2026. na ArXiv-u rad “Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding”. Predstavljaju GUI-SD — prvi OPSD (on-policy self-distillation) framework specifično dizajniran za GUI grounding zadatak.

Što je GUI grounding i zašto je on temeljan za agente?

GUI grounding je sposobnost mapiranja prirodnojezične upute (npr. “klikni na Save dugme”) na točne vizualne koordinate ciljanog elementa na ekranu. Bez ove sposobnosti, autonomni GUI agent ne može stvarno navigirati računalnom aplikacijom — može samo predložiti korisniku što da klikne.

GUI agenti su rastuća kategorija u 2026. (Anthropic Claude Computer Use, OpenAI Operator, Google Gemini Computer Use). Sve te agente ograničava točnost grounding-a: ako agent kaže “klikni na Save” i pogriješi koordinate za 20 piksela, klikne pogrešno mjesto i workflow propada.

Zašto self-distillation, a ne reinforcement learning?

Recentne RL metode (poput GRPO — Group Relative Policy Optimization) postižu jake rezultate, ali imaju dvije ozbiljne mane koje autori navode:

Skupe višestruke rolloute — svaki training step zahtijeva pokretanje modela više puta da se generira distribucija odgovora
Sparse signal na teškim primjerima — kad model konstantno pogriješi, RL gradient praktički nestaje

On-policy self-distillation (OPSD) rješava oba problema. Daje gusti token-level supervisory signal iz jednog rollouta — svaki token u outputu ima jasan training cilj, neovisno o tome je li cijela trajektorija bila uspješna. To čini treniranje učinkovitijim i stabilnijim.

GUI-SD je prvi OPSD framework prilagođen GUI groundingu. Prethodni OPSD radovi pokrivali su uglavnom NLP zadatke ili klasifikaciju.

Što čini GUI-SD specifičnim za grounding?

Sustav koristi dva ključna mehanizma:

Privilegirani vizualni kontekst — učitelj (teacher model) dobiva sliku obogaćenu target bounding box-om i Gaussian soft mask-om. Soft mask daje učitelju jaku indikaciju gdje je cilj, ali ne otkriva točne koordinate, pa učitelj i dalje mora “razmišljati” o pikselizaciji. To rješava klasični problem self-distillation-a — učitelj ne smije biti previše informiraniji od učenika, jer onda postaje “varalica”, a ne učitelj.

Entropy-guided distillation — token težina ovisi o dvije stvari: (a) značajnosti znamenke u koordinatnom outputu (npr. najznačajnija decimala koordinate važnija je od najmanje značajne) i (b) pouzdanosti učitelja na toj poziciji. Tokeni koji su istovremeno značajni i pouzdani dobivaju veću težinu, fokusirajući optimizaciju gdje je najvrjednija.

Koliko su poboljšanja velika?

Eksperimenti na šest reprezentativnih GUI grounding benchmarkova pokazuju da GUI-SD dosljedno nadmašuje GRPO-bazirane metode i naive OPSD u dvije dimenzije:

Točnosti grounding-a (vrijednost koja na kraju određuje uspjeh agenta)
Efikasnosti treniranja (manje compute potrebno za isti rezultat)

Konkretne brojke za svaki benchmark rad daje u glavnom tekstu, ali sažetak je jasan: kombinacija jednog rollouta + entropy-guided ponderiranja + privilegirani kontekst učitelja je dominantni dizajn za grounding training.

Rad je dostupan na ArXiv pod ID-om 2605.00642.

Česta pitanja

Što je GUI grounding i zašto je važan za agente?

GUI grounding je sposobnost mapiranja prirodnojezičnih uputa (npr. 'klikni na Save') na točne vizualne koordinate ciljanog elementa. To je temeljna sposobnost za autonomne GUI agente koji navigiraju ekranom umjesto API-ja.

Zašto je on-policy self-distillation bolji od reinforcement learninga za GUI?

RL metode poput GRPO oslanjaju se na skupe višestruke rolloute i pate od sparse signala na teškim primjerima. OPSD daje gust token-level supervisory signal iz jednog rollouta, što čini treniranje učinkovitijim i stabilnijim.

Kako entropy-guided distillation radi?

Sustav adaptivno ponderira tokene na temelju značajnosti znamenke i pouzdanosti učitelja, koncentrirajući optimizaciju na najutjecajnije i pouzdane pozicije. Token koji je teži ali pouzdaniji dobiva veću težinu od trivijalnog ali nesigurnog.

ArXiv GUI-SD: prvi on-policy self-distillation framework za GUI grounding nadmašuje GRPO na šest benchmarkova u točnosti i efikasnosti treniranja

Što je GUI grounding i zašto je on temeljan za agente?

Zašto self-distillation, a ne reinforcement learning?

Što čini GUI-SD specifičnim za grounding?

Koliko su poboljšanja velika?

Česta pitanja

Izvori

Povezane vijesti