ArXiv: HORIZON — Wo und warum AI-Agenten bei Langzeitaufgaben versagen
Warum es wichtig ist
Der neue Benchmark HORIZON analysiert systematisch, wie LLM-Agenten bei Aufgaben mit langem Horizont versagen. Die Forschung zeigt, dass sich Fehler über mehrere Schritte kumulieren und selbst die besten Modelle nach mehr als 20 Aktionen den Fokus verlieren.
Ein Forschungsteam hat HORIZON vorgestellt, einen neuen Benchmark, der systematisch diagnostiziert, wo und warum LLM-Agenten bei Aufgaben mit langem Horizont versagen — also bei Aufgaben, die Dutzende oder Hunderte aufeinanderfolgender Schritte erfordern.
Wichtigste Erkenntnisse
Anstatt nur das Endergebnis zu testen, analysiert HORIZON jeden potenziellen Fehlerpunkt entlang der Agentenkette. Die Ergebnisse zeigen:
- Kumulative Degradation — jeder Schritt birgt eine kleine Fehlerwahrscheinlichkeit, aber über 20+ Schritte wird dies zu einem nahezu sicheren Ausfall
- Kontextverlust — Agenten „vergessen” allmählich das ursprüngliche Ziel, wenn sich ihr Kontextfenster füllt
- Fehlerhafte Wiederherstellung — wenn ein Agent einen Fehler macht, verschlimmern Korrekturversuche oft die Situation
Warum das wichtig ist
Die meisten bestehenden Benchmarks testen Agenten bei kurzen Aufgaben (5-10 Schritte). In der realen Welt — autonomes Programmieren, Recherche, Planung — umfassen Aufgaben Dutzende bis Hunderte von Schritten. HORIZON zeigt, dass beeindruckende Ergebnisse bei kurzen Benchmarks keine Zuverlässigkeit bei Langzeitaufgaben bedeuten.
Praktische Konsequenzen
Die Ergebnisse legen nahe, dass aktuelle Ansätze für agentische AI grundlegende Änderungen im Kontextmanagement und bei der Fehlerbehebung brauchen — nicht nur größere Modelle oder längere Kontextfenster.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
arXiv:2604.21910: Agentic AI automatisiert wissenschaftliche Workflows mit 83 % Genauigkeit, 92 % weniger Datentransfer und $0,001 pro Anfrage
arXiv:2604.22748: Survey von 42 Autoren führt Taxonomie ‚levels × laws' für World Models in AI-Agenten ein — Synthese aus über 400 Arbeiten
arXiv:2604.22452: Superminds Test zeigt, dass kollektive Intelligenz in einer Gesellschaft von 2 Millionen AI-Agenten nicht spontan entsteht