Was ist die Policy-Switching-Strategie?

Eine Technik, bei der während des Trajektorien-Rollouts zwischen dem Schüler- und dem Expertenmodell gewechselt wird. Das Ziel ist, Fehlerkorrektur-Szenarien zu erfassen, die Standard-Imitation-Learning nicht abdeckt, da es nur aus perfekten Expertenausführungen lernt.

Wie schneidet OpenMobile im Vergleich zu Closed-Source-Agenten ab?

Es erreicht 64,7 % Erfolgsrate auf AndroidWorld, was nahe an geschlossenen Systemen liegt, die etwa 70 % erreichen. Das ist ein bedeutender Sprung über bestehenden Open-Data-Lösungen und beweist, dass qualitativ hochwertige Datensynthese die Lücke schließen kann.

ArXiv OpenMobile: Open-Source-Mobilagenten mit Trajektoriensynthese und Policy-Switching

Ein Team von 14 Forschern unter der Leitung von Kanzhi Cheng veröffentlichte am 16. April 2026 das Paper “OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis”. Der Fokus der Arbeit liegt auf dem Aufbau eines vollständig offenen mobilen Agentensystems, das mit den geschlossenen Lösungen großer Technologieunternehmen konkurrieren kann.

Was ist neu an diesem Ansatz?

Mobile Agenten auf Basis von Vision-Language-Modellen sind ein aktives Forschungsgebiet, aber die führenden Systeme — Apples, Googles und OpenAIs Prototypen — halten ihre Trainingsdaten privat. Dies stellt ein ernsthaftes Problem für die Reproduzierbarkeit und Innovation außerhalb großer Labore dar.

OpenMobile schlägt zwei wichtige technische Innovationen vor:

Task-Synthesis-Pipeline — das System erkundet Anwendungen und baut ein Umgebungsgedächtnis (Environment Memory) auf, das es dann zur Generierung vielfältiger, konkret fundierter Aufgabenanweisungen verwendet. Anstatt dass Forscher Aufgaben manuell schreiben, synthetisiert der Agent sie durch echte Interaktion mit dem Ökosystem.

Policy-Switching-Strategie — während des Trajektorien-Rollouts wechselt das System zwischen dem Schüler- und dem Experten-Modell. Dies erfasst Fehlerkorrektur-Szenarien, die im Standard-Imitation-Learning fehlen — der Experte macht selten Fehler, weshalb der Lernende nie sieht, wie eine Erholung von einer falschen Aktion aussieht.

Ergebnisse auf AndroidWorld

Das Paper demonstriert wettbewerbsfähige Ergebnisse auf dem AndroidWorld-Benchmark, dem Standardtest für mobile Agenten:

Fine-tuned Qwen2.5-VL: 51,7 % Erfolgsrate
Fine-tuned Qwen3-VL: 64,7 % Erfolgsrate

Diese Zahlen liegen deutlich über bestehenden Open-Data-Ansätzen und nähern sich geschlossenen Systemen, die etwa 70 % Erfolgsrate erzielen. Die Lücke von einigen Prozentpunkten zwischen offenen und geschlossenen Systemen ist dramatisch kleiner als noch vor einem Jahr, was zeigt, dass qualitativ hochwertige Datensynthese den proprietären Vorsprung einholen kann.

Transparenz und offener Zugang

Die Autoren haben Kontaminationsanalysen durchgeführt, die auf Überschneidungen zwischen synthetischen Aufgabenanweisungen und Testsets prüfen. Sie kommen zu dem Schluss, dass die Leistung aus der breiten funktionalen Abdeckung stammt und nicht aus einer Überanpassung an den Benchmark. Dies ist ein wichtiges Detail, da viele Veröffentlichungen zu mobilen Agenten ihre Zahlen genau durch stille Überschneidungen mit dem Evaluierungsset in die Höhe treiben.

Daten und Code sind öffentlich veröffentlicht, was anderen Forschern ermöglicht, die Ergebnisse zu reproduzieren und darauf aufzubauen. Für die Industrie ist dies ein nützlicher Referenzpunkt — er zeigt, wie viel offene Agenten mit verfügbaren Qwen-Modellen erreichen können, und beleuchtet, wie Datensynthese-Strategien die Lücke zu proprietären Systemen schließen können.

ArXiv OpenMobile: Open-Source-Mobilagenten mit Trajektoriensynthese und Policy-Switching

Was ist neu an diesem Ansatz?

Ergebnisse auf AndroidWorld

Transparenz und offener Zugang

Quellen

Verwandte Nachrichten