ArXiv KnowU-Bench: neuer Benchmark für interaktive und proaktive mobile KI-Agenten

Eine Lücke in der Evaluierung mobiler Agenten

Aktuelle Benchmarks für mobile KI-Agenten messen überwiegend statische Fähigkeiten — kann der Agent Aufgabe A ausführen, wie gut versteht er den Bildschirm, wie genau ist er bei der OCR. Doch echte mobile Assistenten müssen interaktiv, proaktiv und personalisiert sein — und dies wurde bisher nicht gut evaluiert.

KnowU-Bench schließt diese Lücke als erster umfassender Benchmark, der Fähigkeiten misst, die für den realen Einsatz relevant sind.

Drei zentrale Dimensionen

Interaktivität — wie natürlich der Agent mit dem Nutzer kommuniziert, die richtigen Fragen stellt und den Kontext verfolgt
Proaktivität — die Fähigkeit, Gelegenheiten zur Hilfeleistung OHNE ausdrückliche Aufforderung zu erkennen
Personalisierung — die Anpassung an Nutzerpräferenzen und -gewohnheiten im Zeitverlauf

Warum ist das für mobile Geräte wichtig?

Mobile Agenten stehen im Vergleich zu Desktop-Agenten vor einzigartigen Herausforderungen:

Kleinerer Bildschirm — weniger Informationen, der Agent muss besser filtern
Touch-Interaktion — komplexer als Maus/Tastatur
Context Switching — der Nutzer wechselt ständig zwischen Anwendungen
Akku und Latenz — alles muss effizient sein
Privatsphäre — das Telefon weiß mehr über Sie als der Desktop

Alle großen Akteure arbeiten an mobilen Agenten:

Apple arbeitet an der Integration von Apple Intelligence
Google entwickelt Gemini-Agenten für Android
Microsoft hat Copilot Mobile
Spezialisierte Projekte wie Imbue Bouncer entwickeln lokale mobile Agenten

Verbindung mit PASK

Interessanterweise wurde KnowU-Bench am selben Tag veröffentlicht wie PASK (Proactive Agent System with Knowledge) — es ist ersichtlich, dass sich die Forschungsgemeinschaft koordiniert auf proaktive mobile Agenten konzentriert. KnowU-Bench wird wahrscheinlich zu einem Standardwerkzeug für die Evaluierung von Modellen wie PASK werden.

Implikationen

Für Entwickler mobiler KI-Produkte bietet KnowU-Bench:

Standardisierte Metriken für den Modellvergleich
Realistische Testszenarien, die die tatsächliche Nutzung widerspiegeln
Einen Ausgangspunkt für eigene Fähigkeitsbewertungen

Für Forscher eröffnet er neue Forschungsfelder, in denen Fortschritte klar quantifiziert werden können.