arXiv:2605.07313: Agenten-Speicher skaliert nicht — HippoRAG verliert 16–20 Prozentpunkte Zuverlässigkeit bei wachsenden irrelevanten Sitzungen
arXiv:2605.07313 ist ein skalierungsbedingtes Evaluierungsprotokoll, das testet, ob Agenten-Speichersysteme funktionsfähig bleiben, während sich irrelevante Daten ansammeln. HippoRAG verliert 16–20 Prozentpunkte budgetkonforme Zuverlässigkeit, während LiCoMemory je nach Modellgröße variiert. Die Autoren (Shao, Lu, Zhang, Luo) schlussfolgern, dass Zuverlässigkeitsverluste kein Einzelphänomen sind.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Eine neue arXiv-Arbeit (arXiv:2605.07313) stellt eine scharfe Frage: Funktionieren Agenten-Speichersysteme gut, wenn sich irrelevante Daten ansammeln? Die Autoren Jiaqi Shao, Yiyi Lu, Yunzhen Zhang und Bing Luo präsentieren ein skalierungsbedingtes Evaluierungsprotokoll, das nicht nur statische Genauigkeit misst, sondern „ob die Belege nutzbar sind, während sich irrelevante Sitzungen ansammeln”.
Was der Benchmark misst
Das Protokoll evaluiert drei Typen von Speicher-Interfaces — flach, planar und hierarchisch — über mehrere Systeme hinweg. Es misst vier diagnostische Größen: budgetkonforme Zuverlässigkeit, Speicherabruf-Last an Skalierungsextremen, Fehlermodusklassifikation und die Grenze nutzbarer Skalierung.
Hauptbefunde: HippoRAG und LiCoMemory
HippoRAG bleibt innerhalb des Aufrufbudgets, verliert aber 16–20 Prozentpunkte budgetkonforme Zuverlässigkeit, während sich irrelevante Sitzungen ansammeln. Das bedeutet, es funktioniert formal, liefert aber unter denselben Aufrufbeschränkungen immer weniger korrekte Antworten.
LiCoMemory zeigt eine von der Modellgröße abhängige Variation: Kleinere Modelle (Qwen3-8B) überschreiten das Budget, während größere im getesteten Bereich zuverlässig bleiben. Mit anderen Worten: Kleinere Modelle kompensieren schwächere Speicherfähigkeit durch mehr Aufrufe — was praktische Grenzen überschreitet.
Bedingte Skalierbarkeit
Das Team schlussfolgert, dass „Zuverlässigkeitsverlust kein Einzelphänomen ist”, und plädiert für bedingte Skalierbarkeitszusagen — Skalierbarkeitsaussagen, die sich auf spezifische Agentenkonfigurationen, Interface-Design, Skalierungsbereiche und Interaktionsbeschränkungen beziehen. Für Produktionssysteme bedeutet das: Generische Aussagen wie „unser Speicher skaliert” sind nicht mehr ausreichend — die Bedingungen und der Systemkontext müssen genannt werden.
Häufig gestellte Fragen
- Was ist HippoRAG und wie verhält es sich?
- HippoRAG ist ein Agenten-Speichersystem, das vom menschlichen Hippocampus-Erinnern inspiriert ist. Im neuen Benchmark bleibt es innerhalb des zulässigen Aufrufbudgets, verliert aber 16–20 Prozentpunkte budgetkonforme Zuverlässigkeit, während sich irrelevante Sitzungen ansammeln — was es bei langfristigen Agenten-Deployments anfällig macht.
- Was unterscheidet flache, planare und hierarchische Speicher-Interfaces?
- Flacher Speicher hält Datensätze in einer einzigen Liste (Abruf skaliert linear). Planar fügt Gruppierungen oder Indizes auf einer Ebene hinzu. Hierarchisch organisiert den Speicher in einen Baum oder mehrere Zusammenfassungsebenen. Die Arbeit evaluiert alle drei Ansätze unter demselben skalierungsbedingten Protokoll.
- Warum budgetkonforme Zuverlässigkeit?
- Agenten arbeiten unter Aufrufbeschränkungen — eine Speicherabfrage hat Kosten. Budgetkonforme Zuverlässigkeit misst, wie oft ein Agent die korrekte Antwort innerhalb der zulässigen Anzahl von Speicheraufrufen erhält. Wenn ein System dadurch, dass es 100 Mal den Speicher aufruft, formal eine hohe Genauigkeit erreicht, ist es in der Produktion nicht einsetzbar.
Verwandte Nachrichten
arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten
arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern
arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation