WindowsWorld: GUI-Agenten unter 21 % bei Multi-App

WindowsWorld ist ein neuer Benchmark für autonome GUI-Agenten, der 181 Aufgaben mit durchschnittlich 5,0 Teilzielen in 17 Desktop-Anwendungen auf Basis von 16 Berufsfeldern testet. Führende Computer-Use-Agenten erreichten weniger als 21 % Erfolg bei Aufgaben, die die Grenze einer einzelnen Anwendung überschreiten – was eine große Lücke zwischen isolierten Tests wie OSWorld und echter professioneller Arbeit mit bedingtem Schlussfolgern über drei oder mehr Programme offenbart.

Ein Forschungsteam des Harbin Institute of Technology (Jinchao Li, Yunxin Li, Chenrui Zhao, Zhenran Xu, Baotian Hu und Min Zhang) veröffentlichte am 30. April 2026 auf ArXiv einen neuen Benchmark für autonome GUI-Agenten. WindowsWorld verlagert den Fokus von isolierten Aufgaben innerhalb einer einzelnen Anwendung hin zu realer professioneller Arbeit, die die Grenzen mehrerer Programme überschreitet, und zeigt, dass führende Computer-Use-Agenten bei solchen Aufgaben weniger als 21 % Erfolg erzielen.

Was misst WindowsWorld anders als OSWorld?

OSWorld und verwandte Benchmarks messen Agenten überwiegend innerhalb einer einzelnen Anwendung: Browser öffnen, doppelt klicken, Formular ausfüllen. WindowsWorld deckt explizit Multi-App-Workflows ab – zum Beispiel Daten aus einer Tabelle in Excel extrahieren, einen E-Mail-Entwurf in einem Mail-Client vorbereiten und eine Präsentation mit den Ergebnissen in einem Präsentationsprogramm erstellen, alles in einer einzigen Aufgabe. 78 % der insgesamt 181 Aufgaben sind von Natur aus anwendungsübergreifend, und eine durchschnittliche Aufgabe hat 5,0 Teilziele über 17 verschiedene Desktop-Anwendungen. Die Aufgaben wurden durch ein Multi-Agenten-Framework erstellt, das von 16 professionellen Rollen (Berufsfeldern) geleitet wird, anschließend durch menschliche Überprüfung verfeinert und in einer simulierten Umgebung ausgeführt.

Warum scheitern Agenten, wenn eine Aufgabe drei Anwendungen umfasst?

Der wichtigste experimentelle Befund der Autoren ist über Benchmarks hinweg inkonsistent. Während führende Agenten bei Single-App-Aufgaben gut abschneiden, fallen sie bei Multi-App-Workflows unter 21 % Erfolg. Die konkreten Probleme sind bedingtes Schlussfolgern über drei oder mehr Anwendungen hinweg – Agenten stocken bei frühen Teilzielen oder wiederholen dieselben Schritte. Ein weiteres Problem ist die geringe Ausführungseffizienz: Agenten überschreiten sogar die menschliche Obergrenze bei der Anzahl der Schritte, schließen die Aufgabe aber dennoch nicht ab. Anders gesagt liegt das Problem nicht ausschließlich in der Schrittanzahl, sondern in der Fähigkeit, den Zustand über Kontextübergänge zwischen Programmen hinweg aufrechtzuerhalten.

Implikationen für den Einsatz von KI-Agenten bei der Büroarbeit

Computer-Use-Agenten gehören zu den am schnellsten wachsenden KI-Produkten – Anthropic, OpenAI und Google DeepMind fördern Agenten aktiv als Ersatz für routinemäßige Büroarbeit. WindowsWorld signalisiert, dass die aktuelle Generation von Agenten weit von einer zuverlässigen Ausführung anwendungsübergreifender Aufgaben entfernt ist, die für echte professionelle Alltagsarbeit charakteristisch sind. Der Benchmark sollte eine realistische Richtung für die nächste Generation von Agenten werden – ähnlich wie SWE-bench die Richtung für Coding-Agenten definiert hat.

Häufig gestellte Fragen

Wie viele Aufgaben und Anwendungen umfasst WindowsWorld?

Der Benchmark enthält 181 Aufgaben mit durchschnittlich 5,0 Teilzielen pro Aufgabe, verteilt auf 17 gängige Desktop-Anwendungen. 78 % der Aufgaben sind von Natur aus anwendungsübergreifend.

Welche Erfolgsquote haben die besten GUI-Agenten?

Alle getesteten führenden Computer-Use-Agenten erreichten weniger als 21 % Erfolg bei Multi-App-Aufgaben – drastisch niedriger als bei isolierten Single-App-Tests.

Worin unterscheidet sich WindowsWorld von OSWorld?

OSWorld und ähnliche Benchmarks messen isolierte Single-App-Aufgaben, während WindowsWorld explizit auf anwendungsübergreifende Workflows mit bedingten Verzweigungen ausgerichtet ist, die für professionelle Arbeit typisch sind.

WindowsWorld-Benchmark: Führende Computer-Use-Agenten erreichen weniger als 21 % Erfolgsquote bei Aufgaben über mehrere Desktop-Anwendungen

Was misst WindowsWorld anders als OSWorld?

Warum scheitern Agenten, wenn eine Aufgabe drei Anwendungen umfasst?

Implikationen für den Einsatz von KI-Agenten bei der Büroarbeit

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten