MEMTIER: agentska memorija s 0,05 na 0,38 LongMemEval

MEMTIER je petoslojna memorijska arhitektura za dugoročne autonomne agente — na LongMemEval-S benchmarku s Qwen2.5-7B točnost skače s 0,050 na 0,382, a stopa izvršavanja alata prestaje padati nakon 72 sata rada.

Rad koji se pojavio na arXiv-u prvi sustavno dokumentira problem specifičan za dugoročne autonomne agente: stopa uspješnosti izvršavanja alata pada za 14 postotnih bodova u prozoru od 72 sata operacije. Uzrok je što klasični RAG sustavi ne razlikuju kratkotrajno i dugoročno pamćenje, pa stari kontekst zagušuje relevantne signale.

Što donosi petoslojna arhitektura?

MEMTIER uvodi pet slojeva: episodijski JSONL sloj za sirove zapise, kognitivno ponderirano dohvaćanje sa pet signala (recency, frequency, salience, emotion, task-relevance), PPO-based policy za adaptivno ponderiranje, te asinkronu konsolidaciju epizoda u semantičku memoriju koja djeluje izvan glavne petlje agenta.

RAG (Retrieval-Augmented Generation) je arhitektura gdje model dohvaća relevantne dokumente iz vanjske baze prije generiranja odgovora. PPO (Proximal Policy Optimization) je standardni reinforcement-learning algoritam — ovdje uči agenta kako ponderirati signale za dohvaćanje.

Koliki su skokovi u točnosti?

Na LongMemEval-S benchmarku s 500 pitanja i Qwen2.5-7B modelom na potrošačkom hardveru, točnost skače s baseline vrijednosti 0,050 na 0,382. Riječ je o dramatičnom poboljšanju koje otvara vrata praktičnoj primjeni dugotrajnih agenata bez enterprise infrastrukture.

Uz DeepSeek-V4-Flash pre-populaciju, jednosekcijsko dohvaćanje doseže 0,686 do 0,714, što nadmašuje BM25+GPT-4o RAG baseline. Time MEMTIER nije samo akademska vježba, već konkretna alternativa Pinecone/Weaviate stack-ovima za zadatke gdje agent radi danima.

Zašto je ovo bitno developerima?

Tim koji gradi autonomnog agenta za korisničku podršku, financijsku analizu ili istraživačke zadatke do sada se morao oslanjati ili na enterprise vector baze ili na ručno kuriranje konteksta. MEMTIER demonstrira da kombinacija pravilne segregacije slojeva pamćenja i adaptivnog ponderiranja može značajno smanjiti hardverske zahtjeve.

Ostaje za vidjeti koliko se asinkrona konsolidacija ponaša pod produkcijskim opterećenjem, ali rezultati na javnom benchmarku sugeriraju da je arhitektura ozbiljna kandidatkinja za sljedeću generaciju open-source agentskih frameworkova.

Česta pitanja

Koji problem MEMTIER rješava?

Pad uspješnosti izvršavanja alata za 14 postotnih bodova u prozoru od 72 sata rada agenta, koji klasični RAG sustavi ne mogu spriječiti jer ne razlikuju kratkotrajno i dugoročno pamćenje.

Može li raditi na potrošačkom hardveru?

Da, autori demonstriraju rezultate s Qwen2.5-7B modelom na potrošačkoj GPU konfiguraciji, što je značajno u odnosu na enterprise RAG postavke.

Kako se uspoređuje s klasičnim BM25+GPT-4o RAG-om?

Uz DeepSeek-V4-Flash pre-populaciju, MEMTIER doseže 0,686 do 0,714 na jednosekcijskom dohvaćanju i nadmašuje BM25+GPT-4o baseline.

arXiv:2605.03675: MEMTIER — višeslojna memorija dugoročnim agentima vraća pamćenje

Što donosi petoslojna arhitektura?

Koliki su skokovi u točnosti?

Zašto je ovo bitno developerima?

Česta pitanja

Izvori

Povezane vijesti