ArXiv: HORIZON — Wo und warum AI-Agenten bei Langzeitaufgaben versagen
Warum es wichtig ist
Der neue Benchmark HORIZON analysiert systematisch, wie LLM-Agenten bei Aufgaben mit langem Horizont versagen. Die Forschung zeigt, dass sich Fehler über mehrere Schritte kumulieren und selbst die besten Modelle nach mehr als 20 Aktionen den Fokus verlieren.
Ein Forschungsteam hat HORIZON vorgestellt, einen neuen Benchmark, der systematisch diagnostiziert, wo und warum LLM-Agenten bei Aufgaben mit langem Horizont versagen — also bei Aufgaben, die Dutzende oder Hunderte aufeinanderfolgender Schritte erfordern.
Wichtigste Erkenntnisse
Anstatt nur das Endergebnis zu testen, analysiert HORIZON jeden potenziellen Fehlerpunkt entlang der Agentenkette. Die Ergebnisse zeigen:
- Kumulative Degradation — jeder Schritt birgt eine kleine Fehlerwahrscheinlichkeit, aber über 20+ Schritte wird dies zu einem nahezu sicheren Ausfall
- Kontextverlust — Agenten „vergessen” allmählich das ursprüngliche Ziel, wenn sich ihr Kontextfenster füllt
- Fehlerhafte Wiederherstellung — wenn ein Agent einen Fehler macht, verschlimmern Korrekturversuche oft die Situation
Warum das wichtig ist
Die meisten bestehenden Benchmarks testen Agenten bei kurzen Aufgaben (5-10 Schritte). In der realen Welt — autonomes Programmieren, Recherche, Planung — umfassen Aufgaben Dutzende bis Hunderte von Schritten. HORIZON zeigt, dass beeindruckende Ergebnisse bei kurzen Benchmarks keine Zuverlässigkeit bei Langzeitaufgaben bedeuten.
Praktische Konsequenzen
Die Ergebnisse legen nahe, dass aktuelle Ansätze für agentische AI grundlegende Änderungen im Kontextmanagement und bei der Fehlerbehebung brauchen — nicht nur größere Modelle oder längere Kontextfenster.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Anthropic: Memory für Managed Agents in öffentlicher Beta — KI-Agenten, die Kontext zwischen Sitzungen behalten
GitHub: Cloud-Agent-Sitzungen jetzt direkt aus Issues und Projektansichten verfügbar
ArXiv SWE-chat — ein Datensatz realer Entwicklerinteraktionen mit KI-Coding-Agenten in der Produktion