LongMINT: AI agenti i memorija — 27,9% točnosti u dugim scenarijima

LongMINT je prvi benchmark koji mjeri upravljanje memorijom AI agenata u dugim dinamičnim scenarijima. S 15.600 pitanje-odgovor parova i kontekstom do 1,8 milijuna tokena, prosječna točnost testiranih sustava iznosi samo 27,9% — slabije od slučajnog pogađanja u velikom broju slučajeva.

Istraživači sa Sveučilišta North Carolina objavili su LongMINT — prvi benchmark koji sustavno mjeri koliko loše AI agenti upravljaju memorijom u dugim, dinamičnim scenarijima. Rezultat? Prosječna točnost od samo 27,9% — lošije od slučajnog pogađanja u velikom broju slučajeva.

Što je LongMINT i što mjeri

LongMINT (Memory under Multi-Target Interference in Long-Horizon Agent Systems) benchmark je s 15.600 pitanje-odgovor parova, prosječnog konteksta od 138.800 tokena — a maksimalnih čak 1,8 milijuna tokena po primjeru. Testira se sedam kategorija sustava: obični jezični modeli, RAG sustavi i memorijski augmentirani agenti.

Long-horizon agent je agent koji mora zadržati točne informacije kroz dugi niz koraka — primjerice praćenje stanja, višeturnske dijaloge ili kontrolu verzija koda. Multi-target interference označava situaciju gdje više informacija međusobno interferira: kasniji podaci revidiraju ranije, a sustav mora znati koja je verzija trenutno aktualna.

Zašto 27,9% točnosti nije iznenađenje

Temeljni problem nije duljina konteksta, nego ažuriranja. Kada se ista informacija više puta promijeni — što je normalno u svakom realnom okruženju — agenti konzistentno “zapamte” krivi, zastarjeli podatak. Što više ažuriranja, to lošija preciznost. Bottleneck su retrieval i rekonstrukcija memorije, ne samo pohrana.

Što to znači za razvoj agenata

LongMINT otkriva fundamentalno ograničenje trenutne generacije AI agenata: nisu pouzdani u zadacima gdje informacije evoluiraju. Ovo izravno pogađa sve sustave koji se predstavljaju kao “autonomni asistenti” za dugoročne zadatke — od kodiranja do poslovnih procesa. Dok memorijski sloj ne postane robustan na interference, agenti ostaju alati za kratke sessione, ne za kontinuirani rad.

Česta pitanja

Što mjeri LongMINT benchmark i zašto je jedinstven?

LongMINT mjeri koliko točno AI agenti upravljaju memorijom kad se informacije višekratno ažuriraju u dugim scenarijima. Jedinstven je po kontekstu od prosječno 138.800 tokena (maksimalno 1,8 milijuna) i po fokusu na multi-target interference — situacije gdje kasniji podaci revidiraju ranije.

Zašto je prosječna točnost samo 27,9%?

Temeljni problem nije duljina konteksta, već ažuriranja: kada se ista informacija više puta promijeni, agenti konzistentno pamte krivi, zastarjeli podatak. Bottleneck su retrieval i rekonstrukcija memorije, a ne samo pohrana.

Koje kategorije AI sustava su testirane u LongMINT benchmarku?

Testirano je sedam kategorija: obični jezični modeli, RAG sustavi i memorijski augmentirani agenti — što pruža usporedbu različitih arhitekturalnih pristupa upravljanju dugotrajnom memorijom.

arXiv:2605.18565: LongMINT — zašto AI agenti zaboravljaju sve što im kažeš

Što je LongMINT i što mjeri

Zašto 27,9% točnosti nije iznenađenje

Što to znači za razvoj agenata

Česta pitanja

Izvori

Povezane vijesti