arXiv:2605.18565: LongMINT — warum KI-Agenten alles vergessen, was man ihnen sagt
Forscher der University of North Carolina haben LongMINT veröffentlicht — den ersten Benchmark, der systematisch misst, wie schlecht KI-Agenten in langen, dynamischen Szenarien mit Gedächtnis umgehen. Die durchschnittliche Genauigkeit beträgt nur 27,9 % — in vielen Fällen schlechter als Zufallsraten.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Forscher der University of North Carolina haben LongMINT veröffentlicht — den ersten Benchmark, der systematisch misst, wie schlecht KI-Agenten in langen, dynamischen Szenarien mit Gedächtnis umgehen. Das Ergebnis? Eine durchschnittliche Genauigkeit von nur 27,9 % — in vielen Fällen schlechter als Zufallsraten.
Was ist LongMINT und was misst er?
LongMINT (Memory under Multi-Target Interference in Long-Horizon Agent Systems) ist ein Benchmark mit 15.600 Frage-Antwort-Paaren, einem durchschnittlichen Kontext von 138.800 Tokens — und bis zu 1,8 Millionen Tokens pro Beispiel. Sieben Systemkategorien werden getestet: einfache Sprachmodelle, RAG-Systeme und speichererweiterte Agenten.
Ein Long-Horizon-Agent ist ein Agent, der präzise Informationen über eine lange Abfolge von Schritten hinweg behalten muss — etwa Zustandsverfolgung, mehrturnige Dialoge oder Code-Versionskontrolle. Multi-Target-Interference beschreibt eine Situation, in der mehrere Informationen miteinander interferieren: spätere Daten revidieren frühere, und das System muss wissen, welche Version aktuell gültig ist.
Warum 27,9 % Genauigkeit nicht überrascht
Das Grundproblem ist nicht die Kontextlänge, sondern Aktualisierungen. Wenn sich dieselbe Information mehrfach ändert — was in jeder realen Umgebung normal ist — erinnern sich Agenten konsistent an den falschen, veralteten Wert. Je mehr Aktualisierungen, desto schlechter die Präzision. Der Engpass liegt bei Retrieval und Speicher-Rekonstruktion, nicht nur bei der Speicherung.
Was das für die Agenten-Entwicklung bedeutet
LongMINT zeigt eine fundamentale Einschränkung der aktuellen KI-Agenten-Generation: Sie sind nicht zuverlässig bei Aufgaben, bei denen Informationen sich weiterentwickeln. Das betrifft direkt alle Systeme, die sich als „autonome Assistenten” für Langzeitaufgaben präsentieren — vom Coding bis zu Geschäftsprozessen. Bis die Speicherschicht robust gegen Interferenz wird, bleiben Agenten Tools für kurze Sitzungen — nicht für kontinuierliche Arbeit.
Häufig gestellte Fragen
- Was ist LongMINT und was misst er?
- LongMINT (Memory under Multi-Target Interference in Long-Horizon Agent Systems) ist ein Benchmark mit 15.600 Frage-Antwort-Paaren, einem durchschnittlichen Kontext von 138.800 Tokens — und bis zu 1,8 Millionen Tokens pro Beispiel. Getestet werden sieben Systemkategorien: einfache Sprachmodelle, RAG-Systeme und speichererweiterte Agenten.
- Warum schneiden KI-Agenten bei LongMINT so schlecht ab?
- Das Kernproblem ist nicht die Kontextlänge, sondern Aktualisierungen. Wenn sich dieselbe Information mehrfach ändert — was in jeder realen Umgebung normal ist — erinnern sich Agenten konsistent an den falschen, veralteten Wert. Der Engpass liegt bei Retrieval und Speicher-Rekonstruktion, nicht nur bei der Speicherung.
- Was bedeutet LongMINT für die Agenten-Entwicklung?
- LongMINT zeigt eine fundamentale Einschränkung der aktuellen KI-Agenten-Generation: Sie sind unzuverlässig bei Aufgaben, bei denen Informationen sich entwickeln. Bis die Speicherschicht robust gegen Interferenz wird, bleiben Agenten Tools für kurze Sitzungen — nicht für kontinuierliche Langzeitarbeit.