OSWorld-Studie: KI-Computer-Use-Agenten scheitern oft beim Wiederholen derselben Aufgabe
Neue Forschungsergebnisse zeigen, dass KI-Agenten zur Computersteuerung, die eine Aufgabe einmal erfolgreich ausführen, beim identischen Wiederholungsversuch scheitern können. Die drei Hauptgründe sind Ausführungsstochastizität, Aufgabenspezifikations-Ambiguität und Variabilität des Agentverhaltens.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Eine neue Studie von Gonzalez-Pumariega et al. und Xin Eric Wang deckt ein systemisches Problem bei der Evaluierung von KI-Agenten zur Computersteuerung auf: Das einmalige erfolgreiche Ausführen einer Aufgabe ist keine Garantie dafür, dass der Agent beim zweiten Versuch erfolgreich sein wird.
Was sind die drei Hauptursachen für Instabilität?
Die Forschung identifiziert drei Faktoren, die gemeinsam die Unzuverlässigkeit von Agenten erzeugen. Der erste ist Ausführungsstochastizität — jeder Versuch umfasst zufällige Elemente wie zeitliche Variationen beim Laden der Benutzeroberfläche, unterschiedliche Sampling-Ergebnisse des Modells und geringfügige Änderungen des Betriebssystemzustands.
Der zweite Faktor ist Aufgabenspezifikations-Ambiguität. Dieselbe Aufgabe kann vage genug formuliert sein, um auf mehrere Weisen ausgeführt zu werden, von denen einige nach einem Maßstab „erfolgreich” und nach einem anderen „erfolglos” sind.
Der dritte ist Variabilität des Agentverhaltens — selbst bei identischer Eingabe trifft der Agent nicht immer identische Entscheidungen, besonders in längeren Aktionsketten, wo sich kleine Unterschiede kumulativ verstärken.
Wie half der OSWorld-Benchmark, das Problem aufzudecken?
Die Autoren führten Experimente auf dem OSWorld-Benchmark durch, einer Plattform zur Evaluierung von KI-Agenten in echten Betriebssystemen und Anwendungen. Die entscheidende methodische Maßnahme war die mehrfache Wiederholung derselben Aufgaben statt der standardmäßigen Einzelmessung.
Die Ergebnisse zeigen, dass ein Agent, der eine Aufgabe in einem Durchlauf löst, im nächsten feststecken, einen anderen Weg einschlagen, der nicht zum Erfolg führt, oder in einer Schleife feststecken kann. Eine solche Instabilität bleibt in Benchmarks, die Agenten nur einmal pro Aufgabe testen, unsichtbar.
Die Schlussfolgerung ist, dass veröffentlichte Erfolgsquoten in Standardevaluierungen überschätzt sein können, weil sie nicht berücksichtigen, wie oft der Agent von zehn Versuchen tatsächlich erfolgreich ist.
Was bedeutet das für die Agent-Entwicklung?
Die praktischen Konsequenzen sind für jeden wichtig, der Produktionssysteme auf Computer-Use-Agenten aufbaut. Wenn ein Agent bei sieben von zehn Versuchen erfolgreich ist, bedeutet das in der Produktion, dass drei von zehn Nutzern ein Scheitern erleben — was für viele Anwendungsfälle inakzeptabel ist.
Die Autoren empfehlen mehrfache Evaluierung als Standard, zusammen mit der Messung der Varianz statt nur des Durchschnittserfolgs. Sie empfehlen auch bessere Aufgabenspezifikationen zur Reduzierung von Ambiguität und robustere deterministische Schnittstellen, wo möglich.
Häufig gestellte Fragen
- Was sind Computer-Use-Agenten?
- Computer-Use-Agenten sind KI-Agenten, die einen Computer wie ein Mensch steuern — sie verwenden Maus, Tastatur und lesen den Bildschirm, um Aufgaben in echten Anwendungen auszuführen.
- Was ist der OSWorld-Benchmark?
- OSWorld ist ein Benchmark zur Evaluierung von KI-Agenten in echten Betriebssystemen, bei dem ihre Fähigkeit gemessen wird, Aufgaben durch Anwendungen und Oberflächen zu erledigen.
- Warum reicht ein Einzeltest nicht aus?
- Einzeltests verbergen systematische Zuverlässigkeitsprobleme, da ein Agent zufällig erfolgreich sein oder scheitern kann; erst mehrfache Wiederholungen zeigen die tatsächliche Stabilität.
Quellen
Verwandte Nachrichten
arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten
arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern
arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation