arXiv:2605.12061 SAGE: self-evolving graph-memory engine dosegao 91,6 % Recall@5 na Natural Questions
SAGE je novi self-evolving graph-memory engine za LLM agente objavljen 12. svibnja 2026. na arXivu autora Juntong Wang i suradnika sa Sveučilišta. Engine koristi memory writer + memory reader (Graph Foundation Model) feedback loop koji se autonomno proširuje i reorganizira. Open-domain retrieval zero-shot postiže 82,5/91,6 Recall@2/5 na Natural Questions, uz poboljšanja na LongMemEval i HaluMem hallucination metrikama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim Juntong Wang, Haoyue Zhao, Guanghui Pan, Xiyuan Wang, Yanbo Wang, Qiyan Deng i Muhan Zhang objavili su 12. svibnja 2026. SAGE — self-evolving graph-memory engine koji adresira long-term memory limit u language agentima i dinamiku između structured retrieval-a i agent feedback-a.
Zašto klasični GraphRAG nije dovoljan?
Klasični RAG i GraphRAG sustavi tretiraju memory grafove kao statički retrieval indeks — nakon izgradnje graf se ne mijenja, pa agent ne može uvesti nova povezivanja niti reorganizirati znanje. SAGE polazi od pretpostavke da su graph-strukturne uloge (npr. čvor kao entitet, edge kao relacija, susjedstvo kao kontekst) reusable signal koji omogućuje da memorija sazrijeva tijekom interakcije.
Kako rade memory writer i memory reader?
SAGE spaja dvije komponente u feedback loop. Memory writer inkrementalno gradi strukturiranu graph memoriju iz povijesti interakcija agenta — dodaje čvorove, edge-ove i strukturne anotacije. Memory reader koristi Graph Foundation Model za retrieval i, što je ključno, vraća feedback writeru: koji su čvorovi/edges bili korisni za odgovor, gdje je struktura propala. Loop omogućuje da se memorija autonomno evoluira kroz reader-writer komunikaciju.
Koje su brojke na benchmark-ima?
Zero-shot open-domain retrieval na Natural Questions postiže 82,5 Recall@2 i 91,6 Recall@5. Multi-hop QA ima najbolji prosječni rank nakon dvije runde self-evolutiona — što potvrđuje da iterativni feedback poboljšava graph kvalitetu. Long-term memory i hallucination metrike poboljšane su na LongMemEval i HaluMem benchmark-ima.
Training i reader-writer feedback poboljšali su više performansi metrika simultano, pa SAGE pozicionira graph memoriju kao temelj za long-horizon language agente — scenarije gdje pojedinačne interakcije moraju biti smještene u rastuću mrežu prethodnog znanja.
Česta pitanja
- Po čemu se SAGE razlikuje od klasičnih GraphRAG sustava?
- Klasični RAG i GraphRAG sustavi tretiraju memory grafove statički kao retrieval indeks; SAGE ih tretira kao dynamic long-term memory substrate koji se kroz self-evolution proširuje i reorganizira, a strukturne uloge u grafu se eksploatiraju za bolju memoriju.
- Koji su konkretni benchmark rezultati?
- Zero-shot open-domain retrieval na Natural Questions dosegao je 82,5 Recall@2 i 91,6 Recall@5; multi-hop QA imao je najbolji prosječni rank nakon dvije runde self-evolutiona; long-term memory i hallucination metrike poboljšane su na LongMemEval i HaluMem benchmark-ima.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije