ArXiv OpenMobile: Open-Source-Mobilagenten mit Trajektoriensynthese und Policy-Switching
Warum es wichtig ist
OpenMobile ist ein neues Open-Source-Framework für die Entwicklung mobiler Agenten auf Basis von Vision-Language-Modellen. Nach dem Fine-Tuning von Qwen2.5-VL erreicht es 51,7 % Erfolgsrate, und Qwen3-VL sogar 64,7 % auf dem AndroidWorld-Benchmark — deutlich über bestehenden Open-Data-Ansätzen und nahe an geschlossenen Systemen, die fast 70 % erreichen. Die Autoren veröffentlichen alle Daten und den Code öffentlich.
Ein Team von 14 Forschern unter der Leitung von Kanzhi Cheng veröffentlichte am 16. April 2026 das Paper “OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis”. Der Fokus der Arbeit liegt auf dem Aufbau eines vollständig offenen mobilen Agentensystems, das mit den geschlossenen Lösungen großer Technologieunternehmen konkurrieren kann.
Was ist neu an diesem Ansatz?
Mobile Agenten auf Basis von Vision-Language-Modellen sind ein aktives Forschungsgebiet, aber die führenden Systeme — Apples, Googles und OpenAIs Prototypen — halten ihre Trainingsdaten privat. Dies stellt ein ernsthaftes Problem für die Reproduzierbarkeit und Innovation außerhalb großer Labore dar.
OpenMobile schlägt zwei wichtige technische Innovationen vor:
Task-Synthesis-Pipeline — das System erkundet Anwendungen und baut ein Umgebungsgedächtnis (Environment Memory) auf, das es dann zur Generierung vielfältiger, konkret fundierter Aufgabenanweisungen verwendet. Anstatt dass Forscher Aufgaben manuell schreiben, synthetisiert der Agent sie durch echte Interaktion mit dem Ökosystem.
Policy-Switching-Strategie — während des Trajektorien-Rollouts wechselt das System zwischen dem Schüler- und dem Experten-Modell. Dies erfasst Fehlerkorrektur-Szenarien, die im Standard-Imitation-Learning fehlen — der Experte macht selten Fehler, weshalb der Lernende nie sieht, wie eine Erholung von einer falschen Aktion aussieht.
Ergebnisse auf AndroidWorld
Das Paper demonstriert wettbewerbsfähige Ergebnisse auf dem AndroidWorld-Benchmark, dem Standardtest für mobile Agenten:
- Fine-tuned Qwen2.5-VL: 51,7 % Erfolgsrate
- Fine-tuned Qwen3-VL: 64,7 % Erfolgsrate
Diese Zahlen liegen deutlich über bestehenden Open-Data-Ansätzen und nähern sich geschlossenen Systemen, die etwa 70 % Erfolgsrate erzielen. Die Lücke von einigen Prozentpunkten zwischen offenen und geschlossenen Systemen ist dramatisch kleiner als noch vor einem Jahr, was zeigt, dass qualitativ hochwertige Datensynthese den proprietären Vorsprung einholen kann.
Transparenz und offener Zugang
Die Autoren haben Kontaminationsanalysen durchgeführt, die auf Überschneidungen zwischen synthetischen Aufgabenanweisungen und Testsets prüfen. Sie kommen zu dem Schluss, dass die Leistung aus der breiten funktionalen Abdeckung stammt und nicht aus einer Überanpassung an den Benchmark. Dies ist ein wichtiges Detail, da viele Veröffentlichungen zu mobilen Agenten ihre Zahlen genau durch stille Überschneidungen mit dem Evaluierungsset in die Höhe treiben.
Daten und Code sind öffentlich veröffentlicht, was anderen Forschern ermöglicht, die Ergebnisse zu reproduzieren und darauf aufzubauen. Für die Industrie ist dies ein nützlicher Referenzpunkt — er zeigt, wie viel offene Agenten mit verfügbaren Qwen-Modellen erreichen können, und beleuchtet, wie Datensynthese-Strategien die Lücke zu proprietären Systemen schließen können.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Anthropic: Memory für Managed Agents in öffentlicher Beta — KI-Agenten, die Kontext zwischen Sitzungen behalten
GitHub: Cloud-Agent-Sitzungen jetzt direkt aus Issues und Projektansichten verfügbar
ArXiv SWE-chat — ein Datensatz realer Entwicklerinteraktionen mit KI-Coding-Agenten in der Produktion