MEMTIER: Agentenspeicher von 0,05 auf 0,38 LongMemEval

MEMTIER ist eine fünfstufige Speicherarchitektur für langfristig laufende autonome Agenten — auf dem LongMemEval-S-Benchmark mit Qwen2.5-7B steigt die Genauigkeit von 0,050 auf 0,382, und die Tool-Ausführungsrate hört nach 72 Stunden Betrieb auf zu sinken.

Ein auf arXiv erschienenes Paper dokumentiert erstmals systematisch ein Problem, das speziell für langfristig laufende autonome Agenten gilt: Die Tool-Ausführungserfolgsrate sinkt in einem 72-Stunden-Betriebsfenster um 14 Prozentpunkte. Die Ursache liegt darin, dass klassische RAG-Systeme nicht zwischen Kurzzeit- und Langzeitgedächtnis unterscheiden, sodass alter Kontext relevante Signale überlagert.

Was leistet die fünfstufige Architektur?

MEMTIER führt fünf Ebenen ein: eine episodische JSONL-Schicht für Rohdaten, kognitiv gewichtetes Retrieval mit fünf Signalen (Recency, Frequency, Salience, Emotion, Task-Relevance), eine PPO-basierte Policy für adaptives Gewichten sowie asynchrone Konsolidierung von Episoden in einen semantischen Speicher, der außerhalb der Hauptschleife des Agenten läuft.

RAG (Retrieval-Augmented Generation) ist eine Architektur, bei der das Modell vor der Antwortgenerierung relevante Dokumente aus einem externen Speicher abruft. PPO (Proximal Policy Optimization) ist ein Standard-Reinforcement-Learning-Algorithmus — hier trainiert er den Agenten, Retrieval-Signale zu gewichten.

Wie groß sind die Genauigkeitsgewinne?

Auf dem LongMemEval-S-Benchmark mit 500 Fragen und einem Qwen2.5-7B-Modell auf Consumer-Hardware steigt die Genauigkeit vom Ausgangswert 0,050 auf 0,382. Das ist ein dramatischer Sprung, der den Weg zu praktisch einsetzbaren Langzeit-Agenten ohne Enterprise-Infrastruktur öffnet.

Mit DeepSeek-V4-Flash-Vorpopulierung erreicht das Single-Section-Retrieval 0,686 bis 0,714 und übertrifft damit die BM25+GPT-4o-RAG-Baseline. MEMTIER ist damit nicht nur eine akademische Übung, sondern eine konkrete Alternative zu Pinecone/Weaviate-Stacks für Aufgaben, bei denen ein Agent tagelang läuft.

Warum ist das für Entwickler relevant?

Ein Team, das einen autonomen Agenten für Kundensupport, Finanzanalyse oder Rechercheaufgaben aufbaut, musste sich bislang entweder auf Enterprise-Vektordatenbanken oder auf manuell kuratierten Kontext verlassen. MEMTIER zeigt, dass die Kombination aus ordentlicher Speicherschichten-Segregation und adaptivem Gewichten die Hardware-Anforderungen erheblich senken kann.

Wie sich die asynchrone Konsolidierung unter Produktionslast verhält, bleibt abzuwarten — die Ergebnisse auf dem öffentlichen Benchmark legen jedoch nahe, dass die Architektur ein ernsthafter Kandidat für die nächste Generation von Open-Source-Agenten-Frameworks ist.

Häufig gestellte Fragen

Welches Problem löst MEMTIER?

Einen Rückgang der Tool-Ausführungserfolgsrate um 14 Prozentpunkte in einem 72-Stunden-Betriebsfenster, den klassische RAG-Systeme nicht verhindern können, da sie zwischen Kurz- und Langzeitgedächtnis nicht unterscheiden.

Läuft es auf Consumer-Hardware?

Ja, die Autoren demonstrieren Ergebnisse mit einem Qwen2.5-7B-Modell auf einer Consumer-GPU-Konfiguration, was gegenüber Enterprise-RAG-Setups bemerkenswert ist.

Wie schneidet es im Vergleich zu klassischem BM25+GPT-4o-RAG ab?

Mit DeepSeek-V4-Flash-Vorpopulierung erreicht MEMTIER 0,686 bis 0,714 beim Single-Section-Retrieval und übertrifft die BM25+GPT-4o-Baseline.

arXiv:2605.03675: MEMTIER — mehrstufige Speicherarchitektur gibt Langzeit-Agenten ihr Gedächtnis zurück

Was leistet die fünfstufige Architektur?

Wie groß sind die Genauigkeitsgewinne?

Warum ist das für Entwickler relevant?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten