Engram ist ein Open-Source-Speichersystem für KI-Agenten, das zeigt, dass intelligent abgerufener, verdichteter ('schlanker') Kontext das Laden der gesamten Gesprächshistorie übertrifft. Es nutzt eine Dual-Process-Architektur auf Basis eines bitemporalen Datenmodells. Das Ziel ist, relevante Informationen bei deutlich geringerem Token-Verbrauch bereitzustellen.

Wie erfolgreich war Engram in den Tests?

Im Benchmark LongMemEval_S erreichte Engram 83,6 % gegenüber 73,2 % für den Full-Context-Ansatz, eine Verbesserung um 10,4 Punkte (McNemar p < 10⁻⁶). Es verwendete etwa 9,6k abgerufene Tokens statt 79k, also rund 8× weniger, ohne einen einzigen Fehler bei allen 500 Fragen.

Engram: bitemporaler Speicher, +10,4 Punkte

Q: Was bedeutet ein bitemporales Datenmodell?

Ein bitemporales Modell verfolgt zwei zeitliche Dimensionen von Daten — wann etwas geschah und wann es erfasst wurde. Das ermöglicht es dem System, Wissen aufzubauen, das die zeitliche Abfolge berücksichtigt, und Widersprüche zwischen Fakten aufzulösen. Auf dieser Grundlage baut Engram einen Knowledge Graph aus atomaren Fakten auf.

Engram ist ein Open-Source-Speichersystem, das zeigt, dass intelligent abgerufener 'schlanker' Kontext das Laden der gesamten Gesprächshistorie übertrifft. Im Benchmark LongMemEval_S erreichte es 83,6 % gegenüber 73,2 % für Full-Context und verwendete dabei rund 8× weniger Tokens.

arXiv:2606.09900, veröffentlicht am 5. Juni 2026 um 11:43 UTC, stellt Engram vor — ein Open-Source-Speichersystem, das zeigt, dass intelligent abgerufener „schlanker” Kontext (eine verdichtete, gezielt ausgewählte Informationsmenge) das Laden der gesamten Gesprächshistorie übertrifft. Die Ergebnisse deuten darauf hin, dass mehr Kontext nicht zwangsläufig bessere Antworten bedeutet, sondern dass die Qualität des Abrufs entscheidend ist.

Was ist Engram und welches Problem löst es?

Engram befasst sich mit der Frage, wie man einem KI-Agenten das richtige Wissen im richtigen Moment bereitstellt, ohne unnötige Last. Der übliche Ansatz besteht darin, die gesamte Gesprächshistorie als Full-Context zu laden, doch das verbraucht viele Tokens und kann Rauschen einbringen.

Im Gegensatz dazu ruft Engram nur die relevanten Teile ab. Damit zeigt es, dass sorgfältig ausgewählter, verdichteter Kontext bessere Ergebnisse liefern kann als ein Ansatz, bei dem dem Modell alles auf einmal übergeben wird. Es ist eine Verlagerung von der Menge hin zur Relevanz.

Wie funktioniert die Dual-Process-Architektur?

Engram verwendet eine Dual-Process-Architektur (Architektur mit zwei Prozessen), die auf einem bitemporalen Datenmodell aufbaut. Der erste Prozess ist ein schneller Write Path, der Episoden ohne LLM-Aufruf hinzufügt, wodurch das Schreiben neuer Informationen günstig und schnell ist.

Der zweite Prozess ist ein asynchroner Path, der im Hintergrund einen bitemporalen Knowledge Graph (Wissensgraph) aufbaut. Er extrahiert atomare Fakten und löst Widersprüche zwischen ihnen auf. Diese Aufteilung ermöglicht es dem System, gleichzeitig neue Daten schnell zu erfassen und schrittweise ein geordnetes, konsistentes Wissensmodell aufzubauen.

Was bedeutet ein bitemporales Datenmodell?

Das bitemporale Modell verfolgt zwei zeitliche Dimensionen für jede Information: wann das Ereignis geschah und wann es erfasst wurde. Diese Unterscheidung ermöglicht es dem System, die zeitliche Abfolge von Ereignissen korrekt zu interpretieren und zu erkennen, wann eine spätere Information mit einer früheren in Konflikt steht.

Gerade dank dieses Modells kann Engram beim Aufbau seines Knowledge Graph Widersprüche auflösen. Statt widersprüchliche Aussagen anzuhäufen, hält das System ein kohärentes Wissensbild aufrecht, das die Zeit berücksichtigt.

Wie sind die Ergebnisse im Benchmark?

Im Benchmark LongMemEval_S erreichte Engram 83,6 %, gegenüber 73,2 % für den Full-Context-Ansatz. Das ist eine Verbesserung um 10,4 Punkte, statistisch sehr überzeugend (McNemar p < 10⁻⁶).

Am beeindruckendsten ist das Verhältnis von Leistung zu Kosten. Engram verwendete nur etwa 9,6k abgerufene Tokens statt 79k, was rund 8× weniger Tokens entspricht. Dabei verzeichnete es keinen einzigen Fehler bei allen 500 Fragen. Damit bestätigt sich die Hauptthese der Arbeit: Ein intelligenter, verdichteter Abruf kann zugleich genauer und deutlich günstiger sein als das Laden der gesamten Historie.

Warum ist dieser Ansatz für KI-Agenten wichtig?

Für autonome KI-Agenten, die langwierige Gespräche führen oder Aufgaben über viele Schritte hinweg erledigen, wird das Speichermanagement zu einem zentralen Engpass. Das Kontextfenster eines Modells ist begrenzt, und seine Befüllung mit großen Mengen vergangener Informationen erhöht sowohl die Kosten als auch das Fehlerrisiko.

Engram bietet eine praktische Antwort auf dieses Problem. Da es Open Source ist, können Entwicklungsteams es in ihre eigenen Agenten einbauen, ohne von geschlossenen Lösungen abhängig zu sein. Die Kombination aus einem schnellen Write Path ohne LLM-Aufrufe und dem Aufbau eines Knowledge Graph im Hintergrund bedeutet, dass das System mit der Gesprächshistorie mitwachsen kann, ohne die Interaktion zu verlangsamen. Die Ergebnisse auf LongMemEval_S legen nahe, dass ein solcher Ansatz zum Standard beim Aufbau von Speicherschichten für Agenten werden könnte.

arXiv:2606.09900: Engram — eine bitemporale Speicher-Engine, +10,4 Punkte bei 8× weniger Tokens

Was ist Engram und welches Problem löst es?

Wie funktioniert die Dual-Process-Architektur?

Was bedeutet ein bitemporales Datenmodell?

Wie sind die Ergebnisse im Benchmark?

Warum ist dieser Ansatz für KI-Agenten wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten