GUI-SD: Self-Distillation für GUI-Agenten schlägt GRPO RL

Yan Zhang, Daiqing Wu und Huawen Shen präsentierten GUI-SD — das erste On-Policy-Self-Distillation-Framework (OPSD) speziell für GUI-Grounding, die Fähigkeit von KI-Agenten, natürlichsprachliche Anweisungen auf visuelle Koordinaten von Interface-Elementen abzubilden. Das System nutzt privilegierten visuellen Kontext (Bounding Box und Gaussian Soft Mask) und Entropy-gesteuerte Destillation. Auf sechs repräsentativen GUI-Grounding-Benchmarks übertrifft GUI-SD durchgehend GRPO-basierte RL-Methoden.

Yan Zhang, Daiqing Wu und Huawen Shen veröffentlichten am 1. Mai 2026 auf ArXiv die Arbeit „Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding”. Sie präsentieren GUI-SD — das erste OPSD-Framework (On-Policy Self-Distillation), das speziell für die GUI-Grounding-Aufgabe entwickelt wurde.

Was ist GUI-Grounding und warum ist es grundlegend für Agenten?

GUI-Grounding ist die Fähigkeit, eine natürlichsprachliche Anweisung (z.B. „Klick auf den Speichern-Button”) auf präzise visuelle Koordinaten des Zielelements auf dem Bildschirm abzubilden. Ohne diese Fähigkeit kann ein autonomer GUI-Agent eine Computeranwendung nicht wirklich navigieren — er kann dem Nutzer nur vorschlagen, was er anklicken soll.

GUI-Agenten sind 2026 eine wachsende Kategorie (Anthropic Claude Computer Use, OpenAI Operator, Google Gemini Computer Use). Alle diese Agenten werden durch die Grounding-Genauigkeit begrenzt: Wenn ein Agent sagt „Klick auf Speichern” und die Koordinaten um 20 Pixel verfehlt, klickt er an die falsche Stelle und der Workflow schlägt fehl.

Warum Self-Distillation statt Reinforcement Learning?

Aktuelle RL-Methoden (wie GRPO — Group Relative Policy Optimization) erzielen starke Ergebnisse, haben aber zwei ernsthafte Schwächen, die die Autoren benennen:

Teure mehrfache Rollouts — jeder Trainingsschritt erfordert mehrfaches Ausführen des Modells zur Erzeugung einer Antwortverteilung
Spärliches Signal bei schwierigen Beispielen — wenn das Modell konsistent scheitert, verschwindet der RL-Gradient praktisch

On-Policy Self-Distillation (OPSD) löst beide Probleme. Es liefert ein dichtes Token-Level-Überwachungssignal aus einem einzigen Rollout — jedes Token im Output hat ein klares Trainingsziel, unabhängig davon, ob die gesamte Trajektorie erfolgreich war. Das macht das Training effizienter und stabiler.

GUI-SD ist das erste OPSD-Framework, das für GUI-Grounding angepasst wurde. Frühere OPSD-Arbeiten behandelten hauptsächlich NLP-Aufgaben oder Klassifikation.

Was macht GUI-SD für Grounding spezifisch?

Das System verwendet zwei Schlüsselmechanismen:

Privilegierter visueller Kontext — das Lehrermodell erhält ein Bild, das mit einer Ziel-Bounding-Box und Gaussian-Soft-Mask angereichert ist. Die Soft-Mask gibt dem Lehrer einen starken Hinweis, wo das Ziel ist, offenbart aber nicht die genauen Koordinaten, sodass der Lehrer trotzdem über die Pixelisierung nachdenken muss. Das löst das klassische Self-Distillation-Problem — der Lehrer darf nicht viel informierter sein als der Schüler.

Entropy-gesteuerte Destillation — die Token-Gewichtung hängt von zwei Dingen ab: (a) der Bedeutung der Ziffer im Koordinaten-Output und (b) der Zuverlässigkeit des Lehrers an dieser Position. Token, die gleichzeitig bedeutsam und zuverlässig sind, erhalten höheres Gewicht, was die Optimierung dort konzentriert, wo sie am wertvollsten ist.

Wie groß sind die Verbesserungen?

Experimente auf sechs repräsentativen GUI-Grounding-Benchmarks zeigen, dass GUI-SD durchgehend GRPO-basierte Methoden übertrifft und naives OPSD in zwei Dimensionen:

Grounding-Genauigkeit (der Wert, der letztlich den Agentenerfolg bestimmt)
Trainingseffizienz (weniger Rechenaufwand für dasselbe Ergebnis)

Konkrete Zahlen pro Benchmark werden im Haupttext gegeben, aber die Zusammenfassung ist klar: Die Kombination aus einem Rollout + Entropy-gesteuerter Gewichtung + privilegiertem Lehrerkontext ist ein dominantes Design für Grounding-Training.

Das Paper ist auf ArXiv unter ID 2605.00642 verfügbar.

Häufig gestellte Fragen

Was ist GUI-Grounding und warum ist es wichtig für Agenten?

GUI-Grounding ist die Fähigkeit, natürlichsprachliche Anweisungen (z.B. 'Klick auf Speichern') auf präzise visuelle Koordinaten des Zielelements abzubilden. Das ist die grundlegende Fähigkeit für autonome GUI-Agenten, die den Bildschirm statt einer API navigieren.

Warum ist On-Policy-Self-Distillation besser als Reinforcement Learning für GUI?

RL-Methoden wie GRPO erfordern teure mehrfache Rollouts und leiden unter spärlichen Signalen bei schwierigen Beispielen. OPSD liefert ein dichtes Token-Level-Überwachungssignal aus einem einzigen Rollout, was das Training effizienter und stabiler macht.

Wie funktioniert Entropy-gesteuerte Destillation?

Das System gewichtet Token adaptiv basierend auf Ziffernbedeutung und Lehrervertrauen und konzentriert die Optimierung auf die wirkungsvollsten und zuverlässigsten Positionen. Ein schwierigeres, aber zuverlässigeres Token erhält höheres Gewicht als ein triviales, aber unsicheres.

ArXiv GUI-SD: Erstes On-Policy-Self-Distillation-Framework für GUI-Grounding übertrifft GRPO auf sechs Benchmarks in Genauigkeit und Trainingseffizienz

Was ist GUI-Grounding und warum ist es grundlegend für Agenten?

Warum Self-Distillation statt Reinforcement Learning?

Was macht GUI-SD für Grounding spezifisch?

Wie groß sind die Verbesserungen?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten