ArXiv Odysseys: SOTA-Web-Agenten 44,5 % / 1,15 % Effizienz

CMU-Forscher Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried und Ruslan Salakhutdinov veröffentlichten am 27. April 2026 das ArXiv-Preprint Odysseys — ein Benchmark mit 200 Langzeithorizontaufgaben aus authentischen Browsing-Sitzungen im Live-Internet. Die rubrikbasierte Evaluierung (durchschnittlich 6,1 Rubriken pro Aufgabe) zeigt, dass die stärksten Frontier-Modelle nur 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz erreichen und deckt massive Defizite aktueller Web-Agenten auf.

Das Team der Carnegie Mellon University (Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov) veröffentlichte am 27. April 2026 das Preprint Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks — ein neuer Benchmark, der zeigt, wie weit aktuelle Web-Agenten von einem realen Praxiseinsatz entfernt sind.

Das Problem mit bestehenden Benchmarks

Zitat aus dem Abstract:

„Existing web agent benchmarks have largely converged on short, single-site tasks that frontier models are approaching saturation on.”

Mit anderen Worten: WebArena, Mind2Web und ähnliche Benchmarks werden „gesättigt” — Frontier-Modelle erzielen dort hohe Genauigkeit, was den Eindruck erweckt, das Problem sei gelöst. Reale Webanwendungen sind anders:

Mehrere Seiten und mehrere Webseiten gleichzeitig
Sitzungen dauern 10+ Minuten
Seiten ändern sich in Echtzeit (Cookies, Pop-ups, A/B-Tests)
Ziele sind nicht eindeutig

Odysseys — was ist neu?

Der Benchmark besteht aus 200 Langzeithorizontaufgaben, abgeleitet aus authentischen Browsing-Sitzungen, getestet im Live-Internet. Jede Aufgabe hat durchschnittlich 6,1 Rubriken zur Evaluierung statt binärem Pass/Fail.

Der rubrikbasierte Ansatz bietet zwei Vorteile:

Granularere Einblicke — welchen Teil einer Aufgabe der Agent löst, welchen nicht
Bessere Übereinstimmung mit menschlichem Urteil — die Autoren stellen fest, dass die Rubrik-Evaluierung „verbesserte Übereinstimmung mit menschlichem Urteil im Vergleich zur Trajectory-Level-LLM-Evaluierung” zeigt

Ergebnisse: eine schmerzliche Lücke

Zwei Schlüsselmetriken für „stärkste getestete Frontier-Modelle”:

Erfolgsrate: 44,5 % — weniger als die Hälfte der Aufgaben erfolgreich abgeschlossen
Trajectory-Effizienz: 1,15 % — Rubrik-Score pro Schritt

Die zweite Zahl ist besonders beunruhigend. Niedrige Trajectory-Effizienz bedeutet, dass der Agent viele Aktionen ausführt, die nicht zur Lösung beitragen — er navigiert auf Seiten umher, klickt falsche Links, gelingt ihm schließlich vielleicht, aber durch Brute-Force, nicht durch systematisches Planen.

Getestete Modelle

Der Abstract erwähnt „mehrere führende Frontier-Modelle”, aber spezifische Modelle werden im abgerufenen Teil nicht genannt. Wahrscheinlich umfassen sie GPT-5, Claude Opus 4.6/4.7, Gemini 3 als die drei wichtigsten SOTA-Player für Web-Agenten.

Warum ist das wichtig?

Odysseys liefert einen empirischen Anti-Hype-Einblick. Die Branche drängt aggressiv auf „KI-Agenten, die Aufgaben für Sie erledigen” (OpenAI Managed Agents, Mistral Vibe, Anthropic Claude Code), aber reale Webanwendungen zeigen, dass:

Modelle weit von der menschlichen Leistung bei mehrstufigen Web-Aufgaben entfernt sind
Bestehende Benchmarks die tatsächliche Fähigkeit überschätzen
Effizientes Planen ein größeres Defizit ist als bloßer Erfolg

Für Unternehmen: Vor dem Produktionseinsatz eines Web-Agenten sollte die Trajectory-Effizienz als gleichwertige Metrik neben der Erfolgsrate gemessen werden. Andernfalls zahlt man Token-Kosten für „schließliche Erfolge”, die länger dauern als manuelle Arbeit.

Häufig gestellte Fragen

Was unterscheidet Odysseys von bestehenden Web-Agenten-Benchmarks?

Bestehende Benchmarks haben sich auf kurze, einseitige Aufgaben konzentriert, bei denen Frontier-Modelle langsam eine Sättigung erreichen. Odysseys bringt 200 Langzeithorizontaufgaben aus authentischen Browsing-Sitzungen (mehrere Seiten, mehrere Schritte) im **Live-Internet** — keine synthetischen Pfade. Die Evaluierung ist rubrikbasiert (durchschnittlich 6,1 Rubriken pro Aufgabe) statt binärem Pass/Fail.

Was ist Trajectory-Effizienz?

Eine Metrik, die den Rubrik-Score pro Schritt misst — wie viele „nützliche” Aktionen der Agent im Durchschnitt ausführt. Frontier-Modelle erreichen nur 1,15 % Trajectory-Effizienz, was bedeutet, dass der Agent viele Aktionen durchführt, die nicht zur Lösung beitragen, selbst wenn er schließlich Erfolg hat.

Was deckt dieser Benchmark auf?

Frontier-Modelle erreichen 44,5 % Erfolgsrate bei realistischen Langzeithorizontaufgaben. Kombiniert mit niedriger Trajectory-Effizienz zeigt dies, dass Agenten der aktuellen Generation durch Brute-Force „schließlich erfolgreich sind” — nicht durch systematisches Planen. Es offenbart die echte Lücke zwischen geschlossenen Lab-Benchmarks und realen Webanwendungen.

ArXiv Odysseys: CMUs realistischer Web-Agenten-Benchmark zeigt, dass SOTA-Frontier-Modelle 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz bei Langzeithorizontaufgaben erreichen