🔴 🤝 Agenten Veröffentlicht: · 3 Min. Lesezeit ·

Microsoft Research: Memora — KI-Agenten-Gedächtnis mit bis zu 98% weniger Token und SOTA bei langen Gesprächen

Redaktionelle Illustration: Memora — KI-Agenten-Gedächtnis mit bis zu 98% weniger Token und SOTA bei langen Gesprächen, ohne Text und Gesichter

Memora ist ein skalierbares Gedächtnis-Framework von Microsoft Research für KI-Agenten mit langen Horizonten. Es führt eine harmonische Architektur ein, die trennt, was gespeichert wird, von wie es abgerufen wird — mit Cue-Ankern und einem richtliniengesteuerten Retriever. Es erreicht SOTA auf LoCoMo- und LongMemEval-Benchmarks bei gleichzeitig bis zu 98% Reduzierung des Token-Verbrauchs im Vergleich zum Full-Context-Ansatz.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Was ist Memora und welches Problem löst es?

Agenten-Gedächtnis — die Fähigkeit eines Systems, Kontext langfristig zu speichern und zu nutzen — wird zur Schlüsselkomponente produktiver KI-Lösungen. KI-Agenten, die lange Gespräche oder langfristige Projekte führen, stoßen auf eine grundlegende Einschränkung: Jedes Mal, wenn sie eine alte Information benötigen, müssen sie diese erneut empfangen oder von außen abrufen. Der Token-Verbrauch wächst exponenziell, und die Antwortqualität verschlechtert sich, je länger das Gespräch dauert. Microsoft Research präsentierte Memora, ein skalierbares Gedächtnis-Framework für Agenten mit langen Horizonten (Long-Horizon Agents), das dieses Problem auf Architekturebene löst. Die Arbeit wurde auf der ICML 2026 akzeptiert und der Quellcode ist öffentlich auf GitHub verfügbar.

Harmonische Architektur: Speicherung und Abruf als zwei getrennte Anliegen

Die zentrale Innovation von Memora ist die Trennung von Speicherung und Abruf (Retrieval): Was gespeichert wird — reicher, detaillierter Erinnerungsinhalt — ist von dem getrennt, wie es abgerufen wird — über leichte Abstraktionen und kontextuelle Anker. Jeder Gedächtniseintrag hat zwei Komponenten: Die primäre Abstraktion (eine Phrase aus 6 bis 8 Wörtern) ist der einzige Teil, der in die Vektordatenbank für die Ähnlichkeitssuche eingeht; der Gedächtniswert behält den vollständigen Inhalt, der nur der Retrieval-Policy zugänglich ist, nicht der direkten Suche.

Cue-Anker (kontextuelle Anker) funktionieren als Metadaten-Tags, die alternative Wege zum selben Gedächtnis öffnen, ohne vordefinierte Ontologien. Ein Satz über eine Projektvereinbarung wird nicht in mehrere separate Einträge fragmentiert — er wird einmal gespeichert, mit mehreren Ankern, von denen jeder aus einem anderen Kontext auf dasselbe Gedächtnis zugreift.

Warum klassisches RAG für Agenten mit langen Horizonten nicht ausreicht?

Klassisches RAG (Retrieval-Augmented Generation) ruft Dokumente durch einfache Vektorähnlichkeitssuche ab, ohne über die aktuelle Relevanz im Gesprächskontext nachzudenken. Memora führt einen richtliniengesteuerten Retriever ein, der den Gedächtnisabruf als aktives Schlussfolgern behandelt: Er verfeinert Abfragen iterativ, erkundet verwandte Gedanken über Cue-Anker und bestimmt autonom, wann er mit der Suche aufhört. Dieser Retriever kann über LLM-Schlussfolgern funktionieren oder durch Reinforcement Learning in ein kleineres Modell destilliert werden — womit er auf Produktionsszenarien ohne Abhängigkeit von teuren LLM-Aufrufen für jeden Abruf skaliert.

Ergebnisse: SOTA und 98% weniger Token

Memora erreicht State-of-the-Art auf zwei Referenz-Benchmarks für lange Gespräche. Bei LoCoMo (Dialoge mit 600 Zügen) verzeichnet es 86,3% Genauigkeit gemäß LLM-Richter, bei LongMemEval (115.000-Token-Kontext) 87,4% Genauigkeit — und übertrifft damit alle Konkurrenten: RAG, Mem0, Nemori, Zep, LangMem und Full-Context-Inferenz, die den gesamten Kontext ohne Filterung verbraucht.

Die Effizienz ist das dramatischste Ergebnis: Memora verbraucht bis zu 98% weniger Token im Vergleich zum Full-Context-Ansatz, was die API-Aufrufkosten in Produktions-Agenten direkt reduziert. Gleichzeitig speichert es halb so viele Gedächtniseinträge wie Mem0 (344 gegenüber 651) bei besserer Genauigkeit, mit besonders ausgeprägten Gewinnen bei Multi-Hop-Reasoning-Aufgaben — bei denen der Agent Informationen aus weit entfernten Teilen eines langen Gesprächs kombinieren muss. Die Ergebnisse sind auf beiden Benchmarks konsistent, was die Skalierbarkeit des Ansatzes bestätigt.

Häufig gestellte Fragen

Was ist Memora und was ist ihre zentrale Innovation?
Memora ist ein Gedächtnis-Framework für KI-Agenten, das trennt, was gespeichert wird (reicher Erinnerungsinhalt) davon, wie es abgerufen wird (leichte Abstraktionen und Cue-Anker), wodurch der Token-Verbrauch im Vergleich zum Full-Context-Ansatz um bis zu 98% reduziert wird.
Auf welchen Benchmarks hat Memora SOTA-Ergebnisse erzielt?
Auf dem LoCoMo-Benchmark (600-Zug-Dialoge) erreichte es 86,3% Genauigkeit gemäß LLM-Richter, auf dem LongMemEval-Benchmark (115.000-Token-Kontext) 87,4% Genauigkeit — und übertraf dabei RAG, Mem0, LangMem und andere Konkurrenten.