arXiv:2605.18565: LongMINT — zašto AI agenti zaboravljaju sve što im kažeš
LongMINT je prvi benchmark koji mjeri upravljanje memorijom AI agenata u dugim dinamičnim scenarijima. S 15.600 pitanje-odgovor parova i kontekstom do 1,8 milijuna tokena, prosječna točnost testiranih sustava iznosi samo 27,9% — slabije od slučajnog pogađanja u velikom broju slučajeva.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači sa Sveučilišta North Carolina objavili su LongMINT — prvi benchmark koji sustavno mjeri koliko loše AI agenti upravljaju memorijom u dugim, dinamičnim scenarijima. Rezultat? Prosječna točnost od samo 27,9% — lošije od slučajnog pogađanja u velikom broju slučajeva.
Što je LongMINT i što mjeri
LongMINT (Memory under Multi-Target Interference in Long-Horizon Agent Systems) benchmark je s 15.600 pitanje-odgovor parova, prosječnog konteksta od 138.800 tokena — a maksimalnih čak 1,8 milijuna tokena po primjeru. Testira se sedam kategorija sustava: obični jezični modeli, RAG sustavi i memorijski augmentirani agenti.
Long-horizon agent je agent koji mora zadržati točne informacije kroz dugi niz koraka — primjerice praćenje stanja, višeturnske dijaloge ili kontrolu verzija koda. Multi-target interference označava situaciju gdje više informacija međusobno interferira: kasniji podaci revidiraju ranije, a sustav mora znati koja je verzija trenutno aktualna.
Zašto 27,9% točnosti nije iznenađenje
Temeljni problem nije duljina konteksta, nego ažuriranja. Kada se ista informacija više puta promijeni — što je normalno u svakom realnom okruženju — agenti konzistentno “zapamte” krivi, zastarjeli podatak. Što više ažuriranja, to lošija preciznost. Bottleneck su retrieval i rekonstrukcija memorije, ne samo pohrana.
Što to znači za razvoj agenata
LongMINT otkriva fundamentalno ograničenje trenutne generacije AI agenata: nisu pouzdani u zadacima gdje informacije evoluiraju. Ovo izravno pogađa sve sustave koji se predstavljaju kao “autonomni asistenti” za dugoročne zadatke — od kodiranja do poslovnih procesa. Dok memorijski sloj ne postane robustan na interference, agenti ostaju alati za kratke sessione, ne za kontinuirani rad.
Česta pitanja
- Što mjeri LongMINT benchmark i zašto je jedinstven?
- LongMINT mjeri koliko točno AI agenti upravljaju memorijom kad se informacije višekratno ažuriraju u dugim scenarijima. Jedinstven je po kontekstu od prosječno 138.800 tokena (maksimalno 1,8 milijuna) i po fokusu na multi-target interference — situacije gdje kasniji podaci revidiraju ranije.
- Zašto je prosječna točnost samo 27,9%?
- Temeljni problem nije duljina konteksta, već ažuriranja: kada se ista informacija više puta promijeni, agenti konzistentno pamte krivi, zastarjeli podatak. Bottleneck su retrieval i rekonstrukcija memorije, a ne samo pohrana.
- Koje kategorije AI sustava su testirane u LongMINT benchmarku?
- Testirano je sedam kategorija: obični jezični modeli, RAG sustavi i memorijski augmentirani agenti — što pruža usporedbu različitih arhitekturalnih pristupa upravljanju dugotrajnom memorijom.