ArXiv Odysseys: CMUs realistischer Web-Agenten-Benchmark zeigt, dass SOTA-Frontier-Modelle 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz bei Langzeithorizontaufgaben erreichen
CMU-Forscher Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried und Ruslan Salakhutdinov veröffentlichten am 27. April 2026 das ArXiv-Preprint Odysseys — ein Benchmark mit 200 Langzeithorizontaufgaben aus authentischen Browsing-Sitzungen im Live-Internet. Die rubrikbasierte Evaluierung (durchschnittlich 6,1 Rubriken pro Aufgabe) zeigt, dass die stärksten Frontier-Modelle nur 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz erreichen und deckt massive Defizite aktueller Web-Agenten auf.
Das Team der Carnegie Mellon University (Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov) veröffentlichte am 27. April 2026 das Preprint Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks — ein neuer Benchmark, der zeigt, wie weit aktuelle Web-Agenten von einem realen Praxiseinsatz entfernt sind.
Das Problem mit bestehenden Benchmarks
Zitat aus dem Abstract:
„Existing web agent benchmarks have largely converged on short, single-site tasks that frontier models are approaching saturation on.”
Mit anderen Worten: WebArena, Mind2Web und ähnliche Benchmarks werden „gesättigt” — Frontier-Modelle erzielen dort hohe Genauigkeit, was den Eindruck erweckt, das Problem sei gelöst. Reale Webanwendungen sind anders:
- Mehrere Seiten und mehrere Webseiten gleichzeitig
- Sitzungen dauern 10+ Minuten
- Seiten ändern sich in Echtzeit (Cookies, Pop-ups, A/B-Tests)
- Ziele sind nicht eindeutig
Odysseys — was ist neu?
Der Benchmark besteht aus 200 Langzeithorizontaufgaben, abgeleitet aus authentischen Browsing-Sitzungen, getestet im Live-Internet. Jede Aufgabe hat durchschnittlich 6,1 Rubriken zur Evaluierung statt binärem Pass/Fail.
Der rubrikbasierte Ansatz bietet zwei Vorteile:
- Granularere Einblicke — welchen Teil einer Aufgabe der Agent löst, welchen nicht
- Bessere Übereinstimmung mit menschlichem Urteil — die Autoren stellen fest, dass die Rubrik-Evaluierung „verbesserte Übereinstimmung mit menschlichem Urteil im Vergleich zur Trajectory-Level-LLM-Evaluierung” zeigt
Ergebnisse: eine schmerzliche Lücke
Zwei Schlüsselmetriken für „stärkste getestete Frontier-Modelle”:
- Erfolgsrate: 44,5 % — weniger als die Hälfte der Aufgaben erfolgreich abgeschlossen
- Trajectory-Effizienz: 1,15 % — Rubrik-Score pro Schritt
Die zweite Zahl ist besonders beunruhigend. Niedrige Trajectory-Effizienz bedeutet, dass der Agent viele Aktionen ausführt, die nicht zur Lösung beitragen — er navigiert auf Seiten umher, klickt falsche Links, gelingt ihm schließlich vielleicht, aber durch Brute-Force, nicht durch systematisches Planen.
Getestete Modelle
Der Abstract erwähnt „mehrere führende Frontier-Modelle”, aber spezifische Modelle werden im abgerufenen Teil nicht genannt. Wahrscheinlich umfassen sie GPT-5, Claude Opus 4.6/4.7, Gemini 3 als die drei wichtigsten SOTA-Player für Web-Agenten.
Warum ist das wichtig?
Odysseys liefert einen empirischen Anti-Hype-Einblick. Die Branche drängt aggressiv auf „KI-Agenten, die Aufgaben für Sie erledigen” (OpenAI Managed Agents, Mistral Vibe, Anthropic Claude Code), aber reale Webanwendungen zeigen, dass:
- Modelle weit von der menschlichen Leistung bei mehrstufigen Web-Aufgaben entfernt sind
- Bestehende Benchmarks die tatsächliche Fähigkeit überschätzen
- Effizientes Planen ein größeres Defizit ist als bloßer Erfolg
Für Unternehmen: Vor dem Produktionseinsatz eines Web-Agenten sollte die Trajectory-Effizienz als gleichwertige Metrik neben der Erfolgsrate gemessen werden. Andernfalls zahlt man Token-Kosten für „schließliche Erfolge”, die länger dauern als manuelle Arbeit.
Häufig gestellte Fragen
- Was unterscheidet Odysseys von bestehenden Web-Agenten-Benchmarks?
- Bestehende Benchmarks haben sich auf kurze, einseitige Aufgaben konzentriert, bei denen Frontier-Modelle langsam eine Sättigung erreichen. Odysseys bringt 200 Langzeithorizontaufgaben aus authentischen Browsing-Sitzungen (mehrere Seiten, mehrere Schritte) im **Live-Internet** — keine synthetischen Pfade. Die Evaluierung ist rubrikbasiert (durchschnittlich 6,1 Rubriken pro Aufgabe) statt binärem Pass/Fail.
- Was ist Trajectory-Effizienz?
- Eine Metrik, die den Rubrik-Score pro Schritt misst — wie viele „nützliche” Aktionen der Agent im Durchschnitt ausführt. Frontier-Modelle erreichen nur 1,15 % Trajectory-Effizienz, was bedeutet, dass der Agent viele Aktionen durchführt, die nicht zur Lösung beitragen, selbst wenn er schließlich Erfolg hat.
- Was deckt dieser Benchmark auf?
- Frontier-Modelle erreichen 44,5 % Erfolgsrate bei realistischen Langzeithorizontaufgaben. Kombiniert mit niedriger Trajectory-Effizienz zeigt dies, dass Agenten der aktuellen Generation durch Brute-Force „schließlich erfolgreich sind” — nicht durch systematisches Planen. Es offenbart die echte Lücke zwischen geschlossenen Lab-Benchmarks und realen Webanwendungen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
GitHub Copilot in Visual Studio erhält Debugger-Agent und Cloud-Agent-Sitzungen direkt aus der IDE
AWS Bedrock AgentCore: Serverloser MCP-Proxy mit IAM, OAuth 2.0 JWT und CloudWatch-Observability für Enterprise-Governance
AWS Bedrock AgentCore Memory: drei Muster für Langzeitgedächtnis von Agenten auf Namespace-Ebene mit IAM-Zugriffskontrolle