ArXiv GUI-SD: prvi on-policy self-distillation framework za GUI grounding nadmašuje GRPO na šest benchmarkova u točnosti i efikasnosti treniranja
Yan Zhang, Daiqing Wu i Huawen Shen predstavili su GUI-SD — prvi on-policy self-distillation (OPSD) framework specifično za GUI grounding, sposobnost AI agenata da mapiraju prirodnojezične upute na vizualne koordinate elemenata sučelja. Sustav koristi privilegirani vizualni kontekst (bounding box i Gaussian soft mask) i entropy-guided distillation. Na šest reprezentativnih GUI grounding benchmarkova GUI-SD dosljedno nadmašuje GRPO-bazirane RL metode.