LongMINT: KI-Agenten bei 27,9 % Gedächtnisgenauigkeit

Forscher der University of North Carolina haben LongMINT veröffentlicht — den ersten Benchmark, der systematisch misst, wie schlecht KI-Agenten in langen, dynamischen Szenarien mit Gedächtnis umgehen. Die durchschnittliche Genauigkeit beträgt nur 27,9 % — in vielen Fällen schlechter als Zufallsraten.

Forscher der University of North Carolina haben LongMINT veröffentlicht — den ersten Benchmark, der systematisch misst, wie schlecht KI-Agenten in langen, dynamischen Szenarien mit Gedächtnis umgehen. Das Ergebnis? Eine durchschnittliche Genauigkeit von nur 27,9 % — in vielen Fällen schlechter als Zufallsraten.

Was ist LongMINT und was misst er?

LongMINT (Memory under Multi-Target Interference in Long-Horizon Agent Systems) ist ein Benchmark mit 15.600 Frage-Antwort-Paaren, einem durchschnittlichen Kontext von 138.800 Tokens — und bis zu 1,8 Millionen Tokens pro Beispiel. Sieben Systemkategorien werden getestet: einfache Sprachmodelle, RAG-Systeme und speichererweiterte Agenten.

Ein Long-Horizon-Agent ist ein Agent, der präzise Informationen über eine lange Abfolge von Schritten hinweg behalten muss — etwa Zustandsverfolgung, mehrturnige Dialoge oder Code-Versionskontrolle. Multi-Target-Interference beschreibt eine Situation, in der mehrere Informationen miteinander interferieren: spätere Daten revidieren frühere, und das System muss wissen, welche Version aktuell gültig ist.

Warum 27,9 % Genauigkeit nicht überrascht

Das Grundproblem ist nicht die Kontextlänge, sondern Aktualisierungen. Wenn sich dieselbe Information mehrfach ändert — was in jeder realen Umgebung normal ist — erinnern sich Agenten konsistent an den falschen, veralteten Wert. Je mehr Aktualisierungen, desto schlechter die Präzision. Der Engpass liegt bei Retrieval und Speicher-Rekonstruktion, nicht nur bei der Speicherung.

Was das für die Agenten-Entwicklung bedeutet

LongMINT zeigt eine fundamentale Einschränkung der aktuellen KI-Agenten-Generation: Sie sind nicht zuverlässig bei Aufgaben, bei denen Informationen sich weiterentwickeln. Das betrifft direkt alle Systeme, die sich als „autonome Assistenten” für Langzeitaufgaben präsentieren — vom Coding bis zu Geschäftsprozessen. Bis die Speicherschicht robust gegen Interferenz wird, bleiben Agenten Tools für kurze Sitzungen — nicht für kontinuierliche Arbeit.

Häufig gestellte Fragen

Was ist LongMINT und was misst er?

LongMINT (Memory under Multi-Target Interference in Long-Horizon Agent Systems) ist ein Benchmark mit 15.600 Frage-Antwort-Paaren, einem durchschnittlichen Kontext von 138.800 Tokens — und bis zu 1,8 Millionen Tokens pro Beispiel. Getestet werden sieben Systemkategorien: einfache Sprachmodelle, RAG-Systeme und speichererweiterte Agenten.

Warum schneiden KI-Agenten bei LongMINT so schlecht ab?

Das Kernproblem ist nicht die Kontextlänge, sondern Aktualisierungen. Wenn sich dieselbe Information mehrfach ändert — was in jeder realen Umgebung normal ist — erinnern sich Agenten konsistent an den falschen, veralteten Wert. Der Engpass liegt bei Retrieval und Speicher-Rekonstruktion, nicht nur bei der Speicherung.

Was bedeutet LongMINT für die Agenten-Entwicklung?

LongMINT zeigt eine fundamentale Einschränkung der aktuellen KI-Agenten-Generation: Sie sind unzuverlässig bei Aufgaben, bei denen Informationen sich entwickeln. Bis die Speicherschicht robust gegen Interferenz wird, bleiben Agenten Tools für kurze Sitzungen — nicht für kontinuierliche Langzeitarbeit.

arXiv:2605.18565: LongMINT — warum KI-Agenten alles vergessen, was man ihnen sagt

Was ist LongMINT und was misst er?

Warum 27,9 % Genauigkeit nicht überrascht

Was das für die Agenten-Entwicklung bedeutet

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten