ArXiv: HORIZON — Wo und warum AI-Agenten bei Langzeitaufgaben versagen

Ein Forschungsteam hat HORIZON vorgestellt, einen neuen Benchmark, der systematisch diagnostiziert, wo und warum LLM-Agenten bei Aufgaben mit langem Horizont versagen — also bei Aufgaben, die Dutzende oder Hunderte aufeinanderfolgender Schritte erfordern.

Wichtigste Erkenntnisse

Anstatt nur das Endergebnis zu testen, analysiert HORIZON jeden potenziellen Fehlerpunkt entlang der Agentenkette. Die Ergebnisse zeigen:

Kumulative Degradation — jeder Schritt birgt eine kleine Fehlerwahrscheinlichkeit, aber über 20+ Schritte wird dies zu einem nahezu sicheren Ausfall
Kontextverlust — Agenten „vergessen” allmählich das ursprüngliche Ziel, wenn sich ihr Kontextfenster füllt
Fehlerhafte Wiederherstellung — wenn ein Agent einen Fehler macht, verschlimmern Korrekturversuche oft die Situation

Warum das wichtig ist

Die meisten bestehenden Benchmarks testen Agenten bei kurzen Aufgaben (5-10 Schritte). In der realen Welt — autonomes Programmieren, Recherche, Planung — umfassen Aufgaben Dutzende bis Hunderte von Schritten. HORIZON zeigt, dass beeindruckende Ergebnisse bei kurzen Benchmarks keine Zuverlässigkeit bei Langzeitaufgaben bedeuten.

Praktische Konsequenzen

Die Ergebnisse legen nahe, dass aktuelle Ansätze für agentische AI grundlegende Änderungen im Kontextmanagement und bei der Fehlerbehebung brauchen — nicht nur größere Modelle oder längere Kontextfenster.

ArXiv: HORIZON — Wo und warum AI-Agenten bei Langzeitaufgaben versagen

Wichtigste Erkenntnisse

Warum das wichtig ist

Praktische Konsequenzen

Quellen

Verwandte Nachrichten