Memora란 무엇이며 핵심 혁신은 무엇인가요?

Memora는 AI 에이전트를 위한 메모리 프레임워크로, 저장할 내용(풍부한 기억 내용)과 검색 방법(경량 추상화 및 큐 앵커)을 분리하여 전체 컨텍스트 접근 방식 대비 토큰 소비를 최대 98% 줄입니다.

Memora는 어느 벤치마크에서 SOTA를 달성했나요?

LoCoMo 벤치마크(600회 대화)에서 LLM 심사 기준 86.3% 정확도를, LongMemEval 벤치마크(115,000 토큰 컨텍스트)에서 87.4% 정확도를 달성했습니다 — RAG, Mem0, LangMem 및 다른 경쟁자들을 능가합니다.

Memora: 토큰 98% 절감하는 AI 에이전트 메모리

Memora는 장기 지평선 AI 에이전트를 위한 Microsoft Research의 확장 가능한 메모리 프레임워크입니다. 무엇을 저장할지와 어떻게 검색할지를 분리하는 조화로운 아키텍처, 큐 앵커, 정책 기반 검색기를 도입합니다. 전체 컨텍스트 접근 방식 대비 토큰 소비를 최대 98% 줄이면서 LoCoMo와 LongMemEval 벤치마크에서 SOTA를 달성합니다.

Memora란 무엇이며 어떤 문제를 해결하나요?

에이전트 메모리 — 시스템이 장기적으로 이전 컨텍스트를 기억하고 사용하는 능력 — 는 프로덕션 AI 솔루션의 핵심 구성 요소가 되고 있습니다. 긴 대화나 장기 프로젝트를 수행하는 AI 에이전트는 근본적인 한계에 직면합니다: 오래된 정보가 필요할 때마다 다시 받거나 외부에서 검색해야 합니다. 토큰 소비가 기하급수적으로 증가하고, 대화가 길어질수록 응답 품질이 저하됩니다. Microsoft Research는 장기 지평선 에이전트(long-horizon agents)를 위한 확장 가능한 메모리 프레임워크인 Memora를 발표했습니다. 아키텍처 수준에서 이 문제를 해결합니다. 논문은 ICML 2026에서 채택되었으며 소스 코드는 GitHub에서 공개적으로 이용 가능합니다.

조화로운 아키텍처: 저장과 검색을 두 개의 별도 관심사로

Memora의 핵심 혁신은 저장과 검색(retrieval)의 분리입니다: 저장할 내용 — 풍부하고 상세한 기억 내용 — 은 검색 방법 — 경량 추상화와 컨텍스트 앵커를 통해 — 과 분리됩니다. 각 기억 항목에는 두 가지 구성 요소가 있습니다: 기본 추상화(6~8단어 구문)는 유사성 검색을 위해 벡터 데이터베이스에 들어가는 유일한 부분입니다; 기억 값은 검색 정책에만 접근 가능한 전체 내용을 유지합니다. 직접 검색에는 접근하지 않습니다.

큐 앵커(컨텍스트 앵커)는 사전 정의된 온톨로지 없이 동일한 기억으로의 대체 경로를 여는 메타데이터 태그로 기능합니다. 프로젝트 합의에 관한 문장은 여러 개의 별도 항목으로 분류되지 않습니다 — 한 번 저장되며, 각각 다른 컨텍스트에서 동일한 기억에 접근하는 여러 앵커와 함께.

장기 지평선 에이전트에게 기존 RAG가 충분하지 않은 이유?

기존 RAG(검색 증강 생성)는 대화 컨텍스트에서 현재 관련성 있는 것에 대한 추론 없이 벡터 유사성 검색으로 문서를 검색합니다. Memora는 메모리 검색을 능동적 추론으로 처리하는 정책 기반 검색기를 도입합니다: 쿼리를 반복적으로 정제하고, 큐 앵커를 통해 관련 기억을 탐색하며, 검색을 중단할 때를 자율적으로 결정합니다. 이 검색기는 LLM 추론을 통해 기능하거나 강화 학습으로 더 작은 모델에 증류될 수 있습니다 — 각 검색에 비싼 LLM 호출 의존 없이 프로덕션 시나리오로 확장 가능합니다.

결과: SOTA와 98% 더 적은 토큰

Memora는 장문 대화를 위한 두 개의 참조 벤치마크에서 최고 성능을 달성합니다. LoCoMo(600회 대화)에서 LLM 심사 기준 86.3% 정확도를, LongMemEval(115,000 토큰 컨텍스트)에서 87.4% 정확도를 기록합니다 — 모든 경쟁자를 능가합니다: RAG, Mem0, Nemori, Zep, LangMem, 전체 컨텍스트를 필터링 없이 소비하는 전체 컨텍스트 추론.

효율성이 가장 극적인 결과입니다: Memora는 전체 컨텍스트 접근 방식 대비 최대 98% 더 적은 토큰을 소비하며, 이는 프로덕션 에이전트에서 API 호출 비용을 직접적으로 줄입니다. 동시에 Mem0보다 절반 더 적은 기억 항목을 저장합니다(344 대 651) 더 높은 정확도로, 특히 다중 홉 추론 작업에서 두드러진 이점이 있습니다 — 에이전트가 긴 대화의 먼 부분에서 정보를 결합해야 할 때. 결과는 두 벤치마크에서 일관되어 접근 방식의 확장성을 확인합니다.

Microsoft Research: Memora — 토큰 최대 98% 감소와 장문 대화 SOTA를 달성하는 AI 에이전트 메모리

Memora란 무엇이며 어떤 문제를 해결하나요?

조화로운 아키텍처: 저장과 검색을 두 개의 별도 관심사로

장기 지평선 에이전트에게 기존 RAG가 충분하지 않은 이유?

결과: SOTA와 98% 더 적은 토큰

자주 묻는 질문

출처

관련 뉴스