🤖 24 AI
🟡 🤝 Agenten Mittwoch, 15. April 2026 · 1 Min. Lesezeit

ArXiv: HORIZON — Wo und warum AI-Agenten bei Langzeitaufgaben versagen

Warum es wichtig ist

Der neue Benchmark HORIZON analysiert systematisch, wie LLM-Agenten bei Aufgaben mit langem Horizont versagen. Die Forschung zeigt, dass sich Fehler über mehrere Schritte kumulieren und selbst die besten Modelle nach mehr als 20 Aktionen den Fokus verlieren.

Ein Forschungsteam hat HORIZON vorgestellt, einen neuen Benchmark, der systematisch diagnostiziert, wo und warum LLM-Agenten bei Aufgaben mit langem Horizont versagen — also bei Aufgaben, die Dutzende oder Hunderte aufeinanderfolgender Schritte erfordern.

Wichtigste Erkenntnisse

Anstatt nur das Endergebnis zu testen, analysiert HORIZON jeden potenziellen Fehlerpunkt entlang der Agentenkette. Die Ergebnisse zeigen:

  • Kumulative Degradation — jeder Schritt birgt eine kleine Fehlerwahrscheinlichkeit, aber über 20+ Schritte wird dies zu einem nahezu sicheren Ausfall
  • Kontextverlust — Agenten „vergessen” allmählich das ursprüngliche Ziel, wenn sich ihr Kontextfenster füllt
  • Fehlerhafte Wiederherstellung — wenn ein Agent einen Fehler macht, verschlimmern Korrekturversuche oft die Situation

Warum das wichtig ist

Die meisten bestehenden Benchmarks testen Agenten bei kurzen Aufgaben (5-10 Schritte). In der realen Welt — autonomes Programmieren, Recherche, Planung — umfassen Aufgaben Dutzende bis Hunderte von Schritten. HORIZON zeigt, dass beeindruckende Ergebnisse bei kurzen Benchmarks keine Zuverlässigkeit bei Langzeitaufgaben bedeuten.

Praktische Konsequenzen

Die Ergebnisse legen nahe, dass aktuelle Ansätze für agentische AI grundlegende Änderungen im Kontextmanagement und bei der Fehlerbehebung brauchen — nicht nur größere Modelle oder längere Kontextfenster.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.