🔴 🤝 Agenti Objavljeno: · 3 min čitanja ·

Microsoft Research: Memora — memorija AI agenata uz do 98% manje tokena i SOTA na dugim razgovorima

Editorial ilustracija: Memora — memorija AI agenata uz do 98% manje tokena i SOTA na dugim razgovorima, bez teksta i lica

Memora je skalabilni memorijski framework Microsoft Researcha za AI agente s dugim horizontima. Uvodi harmonijsku arhitekturu koja razdvaja što se pohranjuje od kako se dohvaća, uz cue anchore i policy-vođeni retriever. Postiže SOTA na LoCoMo i LongMemEval benchmarkovima uz smanjenje potrošnje tokena do 98% u usporedbi s full-context pristupom.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Što je Memora i koji problem rješava

Agentska memorija — sposobnost sustava da dugoročno pamti i koristi prethodni kontekst — postaje ključna komponenta produkcijskih AI rješenja. AI agenti koji vode duge razgovore ili dugoročne projekte suočavaju se s temeljnim ograničenjem: svaki put kad im zatreba stara informacija, moraju je primiti iznova ili je dohvatiti izvana. Potrošnja tokena raste eksponencijalno, a kvaliteta odgovora degradira što razgovor dulje traje. Microsoft Research predstavio je Memoru, skalabilni memorijski framework za agente s dugim horizontima (long-horizon agents), koji taj problem rješava na arhitekturalnoj razini. Rad je prihvaćen na ICML 2026 i izvorni je kod javno dostupan na GitHubu.

Harmonijska arhitektura: pohrana i dohvat kao dvije odvojene brige

Centralna inovacija Memore je razdvajanje pohrane od dohvata (retrieval): što se pohranjuje — bogat, detaljan sadržaj sjećanja — odvojeno je od toga kako se dohvaća — putem laganih apstrakcija i kontekstualnih sidara. Svaki memorijski unos ima dvije komponente: primarna apstrakcija (fraza od 6 do 8 riječi) je jedini dio koji ulazi u vektorsku bazu za pretraživanje po sličnosti; memorijska vrijednost zadržava puni sadržaj, dostupan samo retrieval politici, ne direktnoj pretrazi.

Cue anchorsi (kontekstualna sidra) funkcioniraju kao metapodatkovne oznake koje otvaraju alternativne putove do istog sjećanja bez predefiniranih ontologija. Rečenica o projektnom dogovoru ne fragmentira se u više odvojenih unosa — pohranjuje se jednom, s više sidara, od kojih svako pristupa istom sjećanju iz drugog konteksta.

Zašto klasični RAG nije dovoljan za agente s dugim horizontima?

Klasični RAG (Retrieval-Augmented Generation) dohvaća dokumente jednostavnom pretragom po vektorskoj sličnosti, bez zaključivanja o tome što je trenutno relevantno u kontekstu razgovora. Memora uvodi policy-vođeni retriever koji memorijski dohvat tretira kao aktivno zaključivanje: iterativno precizira upite, istražuje povezana sjećanja kroz cue anchorse i autonomno određuje kada prestati pretraživati. Taj retriever može funkcionirati putem LLM zaključivanja ili biti destiliran u manji model reinforcement learningom — čime se skalira na produkcijske scenarije bez ovisnosti o skupim LLM pozivima za svaki dohvat.

Rezultati: SOTA i 98% manje tokena

Memora postiže state-of-the-art na dva referentna benchmarka za duge razgovore. Na LoCoMo (dijalozi od 600 poteza) bilježi 86,3% točnosti prema LLM-sucu, a na LongMemEval (kontekst od 115.000 tokena) 87,4% točnosti — nadmašujući sve konkurente: RAG, Mem0, Nemori, Zep, LangMem i full-context inferenciju koja troši cijeli kontekst bez filtriranja.

Efikasnost je najdramatičniji rezultat: Memora troši do 98% manje tokena u usporedbi s full-context pristupom, što izravno smanjuje troškove API poziva u produkcijskim agentima. Paralelno, pohranjuje upola manje memorijskih unosa od Mem0 (344 nasuprot 651) uz bolju točnost, s posebno izraženim dobicima na zadacima višekoračnog zaključivanja (multi-hop reasoning) — gdje agent mora kombinirati informacije iz udaljenih dijelova dugog razgovora. Rezultati su konzistentni na oba benchmarka, što potvrđuje skalabilnost pristupa.

Česta pitanja

Što je Memora i što je njezina ključna inovacija?
Memora je memorijski framework za AI agente koji razdvaja što se pohranjuje (bogat sadržaj sjećanja) od toga kako se dohvaća (lagane apstrakcije i cue anchorsi), čime smanjuje potrošnju tokena do 98% u usporedbi s full-context pristupom.
Na kojim benchmarkovima je Memora postigla SOTA rezultate?
Na LoCoMo benchmarku (600-potezni dijalozi) postigla je 86,3% točnosti prema LLM-sucu, a na LongMemEval benchmarku (kontekst od 115.000 tokena) 87,4% točnosti — nadmašujući RAG, Mem0, LangMem i ostale konkurente.