Was ist Memora und was ist ihre zentrale Innovation?

Memora ist ein Gedächtnis-Framework für KI-Agenten, das trennt, was gespeichert wird (reicher Erinnerungsinhalt) davon, wie es abgerufen wird (leichte Abstraktionen und Cue-Anker), wodurch der Token-Verbrauch im Vergleich zum Full-Context-Ansatz um bis zu 98% reduziert wird.

Auf welchen Benchmarks hat Memora SOTA-Ergebnisse erzielt?

Auf dem LoCoMo-Benchmark (600-Zug-Dialoge) erreichte es 86,3% Genauigkeit gemäß LLM-Richter, auf dem LongMemEval-Benchmark (115.000-Token-Kontext) 87,4% Genauigkeit — und übertraf dabei RAG, Mem0, LangMem und andere Konkurrenten.

Memora: KI-Agenten-Gedächtnis mit 98% weniger Token

Memora ist ein skalierbares Gedächtnis-Framework von Microsoft Research für KI-Agenten mit langen Horizonten. Es führt eine harmonische Architektur ein, die trennt, was gespeichert wird, von wie es abgerufen wird — mit Cue-Ankern und einem richtliniengesteuerten Retriever. Es erreicht SOTA auf LoCoMo- und LongMemEval-Benchmarks bei gleichzeitig bis zu 98% Reduzierung des Token-Verbrauchs im Vergleich zum Full-Context-Ansatz.

Was ist Memora und welches Problem löst es?

Agenten-Gedächtnis — die Fähigkeit eines Systems, Kontext langfristig zu speichern und zu nutzen — wird zur Schlüsselkomponente produktiver KI-Lösungen. KI-Agenten, die lange Gespräche oder langfristige Projekte führen, stoßen auf eine grundlegende Einschränkung: Jedes Mal, wenn sie eine alte Information benötigen, müssen sie diese erneut empfangen oder von außen abrufen. Der Token-Verbrauch wächst exponenziell, und die Antwortqualität verschlechtert sich, je länger das Gespräch dauert. Microsoft Research präsentierte Memora, ein skalierbares Gedächtnis-Framework für Agenten mit langen Horizonten (Long-Horizon Agents), das dieses Problem auf Architekturebene löst. Die Arbeit wurde auf der ICML 2026 akzeptiert und der Quellcode ist öffentlich auf GitHub verfügbar.

Harmonische Architektur: Speicherung und Abruf als zwei getrennte Anliegen

Die zentrale Innovation von Memora ist die Trennung von Speicherung und Abruf (Retrieval): Was gespeichert wird — reicher, detaillierter Erinnerungsinhalt — ist von dem getrennt, wie es abgerufen wird — über leichte Abstraktionen und kontextuelle Anker. Jeder Gedächtniseintrag hat zwei Komponenten: Die primäre Abstraktion (eine Phrase aus 6 bis 8 Wörtern) ist der einzige Teil, der in die Vektordatenbank für die Ähnlichkeitssuche eingeht; der Gedächtniswert behält den vollständigen Inhalt, der nur der Retrieval-Policy zugänglich ist, nicht der direkten Suche.

Cue-Anker (kontextuelle Anker) funktionieren als Metadaten-Tags, die alternative Wege zum selben Gedächtnis öffnen, ohne vordefinierte Ontologien. Ein Satz über eine Projektvereinbarung wird nicht in mehrere separate Einträge fragmentiert — er wird einmal gespeichert, mit mehreren Ankern, von denen jeder aus einem anderen Kontext auf dasselbe Gedächtnis zugreift.

Warum klassisches RAG für Agenten mit langen Horizonten nicht ausreicht?

Klassisches RAG (Retrieval-Augmented Generation) ruft Dokumente durch einfache Vektorähnlichkeitssuche ab, ohne über die aktuelle Relevanz im Gesprächskontext nachzudenken. Memora führt einen richtliniengesteuerten Retriever ein, der den Gedächtnisabruf als aktives Schlussfolgern behandelt: Er verfeinert Abfragen iterativ, erkundet verwandte Gedanken über Cue-Anker und bestimmt autonom, wann er mit der Suche aufhört. Dieser Retriever kann über LLM-Schlussfolgern funktionieren oder durch Reinforcement Learning in ein kleineres Modell destilliert werden — womit er auf Produktionsszenarien ohne Abhängigkeit von teuren LLM-Aufrufen für jeden Abruf skaliert.

Ergebnisse: SOTA und 98% weniger Token

Memora erreicht State-of-the-Art auf zwei Referenz-Benchmarks für lange Gespräche. Bei LoCoMo (Dialoge mit 600 Zügen) verzeichnet es 86,3% Genauigkeit gemäß LLM-Richter, bei LongMemEval (115.000-Token-Kontext) 87,4% Genauigkeit — und übertrifft damit alle Konkurrenten: RAG, Mem0, Nemori, Zep, LangMem und Full-Context-Inferenz, die den gesamten Kontext ohne Filterung verbraucht.

Die Effizienz ist das dramatischste Ergebnis: Memora verbraucht bis zu 98% weniger Token im Vergleich zum Full-Context-Ansatz, was die API-Aufrufkosten in Produktions-Agenten direkt reduziert. Gleichzeitig speichert es halb so viele Gedächtniseinträge wie Mem0 (344 gegenüber 651) bei besserer Genauigkeit, mit besonders ausgeprägten Gewinnen bei Multi-Hop-Reasoning-Aufgaben — bei denen der Agent Informationen aus weit entfernten Teilen eines langen Gesprächs kombinieren muss. Die Ergebnisse sind auf beiden Benchmarks konsistent, was die Skalierbarkeit des Ansatzes bestätigt.

Microsoft Research: Memora — KI-Agenten-Gedächtnis mit bis zu 98% weniger Token und SOTA bei langen Gesprächen

Was ist Memora und welches Problem löst es?

Harmonische Architektur: Speicherung und Abruf als zwei getrennte Anliegen

Warum klassisches RAG für Agenten mit langen Horizonten nicht ausreicht?

Ergebnisse: SOTA und 98% weniger Token

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten