Engram이란 무엇인가?

Engram은 영리하게 검색된 압축('lean') 컨텍스트가 전체 대화 이력을 불러오는 것보다 우수함을 보여주는 AI 에이전트용 오픈소스 메모리 시스템이다. 이중 시간 데이터 모델에 기반한 dual-process 아키텍처를 사용한다. 목표는 토큰 소비를 크게 줄이면서 관련 정보를 제공하는 것이다.

Engram은 테스트에서 얼마나 성공적이었는가?

LongMemEval_S 벤치마크에서 Engram은 full-context 접근의 73.2%에 비해 83.6%를 달성했으며, 이는 10.4점의 개선이다(McNemar p < 10⁻⁶). 79k 대신 약 9.6k의 검색 토큰을 사용했는데, 이는 약 8배 적은 수치이며, 500개 질문 전부에서 단 하나의 오류도 없었다.

Engram: 이중 시간 메모리, +10.4점

Q: 이중 시간 데이터 모델이란 무엇을 의미하는가?

이중 시간 모델은 데이터의 두 가지 시간 차원 — 어떤 일이 언제 일어났는지와 그것이 언제 기록되었는지 — 을 추적한다. 이를 통해 시스템은 시간적 순서를 반영하는 지식을 구축하고 사실들 사이의 모순을 해소할 수 있다. Engram은 이 기반 위에 원자적 사실의 knowledge graph를 구축한다.

Engram은 영리하게 검색된 'lean' 컨텍스트가 전체 대화 이력을 불러오는 것보다 우수함을 보여주는 오픈소스 메모리 시스템이다. LongMemEval_S 벤치마크에서 full-context의 73.2%에 비해 83.6%를 달성했으며, 토큰을 약 8배 적게 사용했다.

2026년 6월 5일 11:43 UTC에 공개된 arXiv:2606.09900은 Engram을 제시한다 — 이는 영리하게 검색된 “lean” 컨텍스트(압축되고 목적에 맞게 선별된 정보 집합)가 전체 대화 이력을 불러오는 것보다 우수함을 보여주는 오픈소스 메모리 시스템이다. 결과는 더 많은 컨텍스트가 반드시 더 나은 응답을 의미하지 않으며, 결정적인 것은 검색의 품질임을 시사한다.

Engram이란 무엇이며 어떤 문제를 해결하는가?

Engram은 불필요한 부담 없이 AI 에이전트에게 적절한 시점에 올바른 지식을 제공하는 방법의 문제를 다룬다. 일반적인 접근은 전체 대화 이력을 full-context로 불러오는 것이지만, 이는 많은 토큰을 소비하고 잡음을 유입시킬 수 있다.

이와 반대로 Engram은 관련 있는 부분만 검색한다. 이로써 신중하게 선별된 압축 컨텍스트가 모델에 모든 것을 한꺼번에 넘기는 접근보다 더 나은 결과를 줄 수 있음을 보여준다. 이는 양에서 관련성으로의 전환이다.

dual-process 아키텍처는 어떻게 작동하는가?

Engram은 이중 시간 데이터 모델 위에 구축된 dual-process 아키텍처(두 개의 프로세스를 가진 아키텍처)를 사용한다. 첫 번째 프로세스는 LLM 호출 없이 에피소드를 추가하는 빠른 write path로, 새 정보의 기록을 저렴하고 빠르게 만든다.

두 번째 프로세스는 배경에서 이중 시간 knowledge graph(지식 그래프)를 구축하는 비동기 path다. 이는 원자적 사실을 추출하고 그것들 사이의 모순을 해소한다. 이러한 분할은 시스템이 새 데이터를 빠르게 기록하는 동시에 정연하고 일관된 지식 모델을 점진적으로 구축할 수 있게 한다.

이중 시간 데이터 모델이란 무엇을 의미하는가?

이중 시간 모델은 각 정보에 대해 두 가지 시간 차원을 추적한다: 사건이 언제 일어났는지와 그것이 언제 기록되었는지다. 이 구분은 시스템이 사건의 시간적 순서를 올바르게 해석하고, 어떤 후속 정보가 이전 정보와 충돌할 때 이를 인식할 수 있게 한다.

바로 이 모델 덕분에 Engram은 자신의 knowledge graph를 구축하면서 모순을 해소할 수 있다. 모순되는 주장을 쌓아두는 대신, 시스템은 시간을 반영하는 일관된 지식의 상을 유지한다.

벤치마크 결과는 어떠한가?

LongMemEval_S 벤치마크에서 Engram은 **83.6%**를 달성했으며, 이는 full-context 접근의 **73.2%**와 대비된다. 이는 10.4점의 개선이며, 통계적으로 매우 설득력 있다(McNemar p < 10⁻⁶).

가장 인상적인 것은 성능과 비용의 관계다. Engram은 79k 대신 약 9.6k의 검색 토큰만 사용했는데, 이는 약 8배 적은 토큰이다. 그러면서도 500개 질문 전부에서 단 하나의 오류도 기록하지 않았다. 이로써 논문의 핵심 명제가 확인된다: 영리하고 압축된 검색은 전체 이력을 불러오는 것보다 더 정확하면서도 훨씬 저렴할 수 있다.

이 접근은 왜 AI 에이전트에게 중요한가?

장시간 대화를 이어가거나 여러 단계에 걸친 작업을 수행하는 자율 AI 에이전트에게 메모리 관리는 핵심적인 병목이 된다. 모델의 컨텍스트 창은 제한되어 있으며, 그것을 대량의 과거 정보로 채우는 것은 비용과 오류 위험을 모두 높인다.

Engram은 이 문제에 대한 실용적인 답을 제공한다. 오픈소스이기 때문에 개발팀은 폐쇄형 솔루션에 의존하지 않고 자신의 에이전트에 이를 통합할 수 있다. LLM 호출 없는 빠른 write path와 배경에서의 knowledge graph 구축의 조합은, 시스템이 상호작용을 늦추지 않으면서 대화 이력과 함께 성장할 수 있음을 의미한다. LongMemEval_S에서의 결과는 이러한 접근이 에이전트의 메모리 계층 구축에서 표준이 될 수 있음을 시사한다.

arXiv:2606.09900: Engram — 이중 시간 메모리 엔진, 토큰 8배 절감으로 +10.4점

Engram이란 무엇이며 어떤 문제를 해결하는가?

dual-process 아키텍처는 어떻게 작동하는가?

이중 시간 데이터 모델이란 무엇을 의미하는가?

벤치마크 결과는 어떠한가?

이 접근은 왜 AI 에이전트에게 중요한가?

자주 묻는 질문

출처

관련 뉴스