arXiv:2605.07313: agent memory ne skalira — HippoRAG gubi 16-20 pp pouzdanosti s rastom irelevantnih sesija
Rad arXiv:2605.07313 je scale-conditioned evaluacijski protokol koji testira ostaju li sustavi memorije agenata funkcionalni dok se gomilaju irelevantni podaci. HippoRAG gubi 16-20 postotnih bodova budget-compliant pouzdanosti, dok LiCoMemory varira ovisno o veličini modela. Autori (Shao, Lu, Zhang, Luo) zaključuju da gubitak pouzdanosti nije jedinstvena pojava.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi arXiv rad (arXiv:2605.07313) postavlja oštro pitanje: rade li agent memory sustavi dobro kad mu se nakupi irelevantnih podataka? Autori Jiaqi Shao, Yiyi Lu, Yunzhen Zhang i Bing Luo predstavljaju scale-conditioned evaluacijski protokol koji ne mjeri samo statičku točnost, već “je li dokaz upotrebljiv kako se gomilaju irelevantne sesije”.
Što benchmark mjeri
Protokol evaluira tri tipa memorijskih interfejsa — flat, planar i hierarchical — kroz više sustava. Mjeri četiri dijagnostičke veličine: budget-compliant pouzdanost, opterećenje memory poziva na ekstremima skale, klasifikaciju modova greški i granicu iskoristive skale.
Glavni nalazi: HippoRAG i LiCoMemory
HippoRAG ostaje unutar budžeta poziva ali gubi 16-20 postotnih bodova budget-compliant pouzdanosti dok se irelevantne sesije gomilaju. To znači da formalno radi, ali daje sve manje točnih odgovora pod istim ograničenjima poziva.
LiCoMemory pokazuje varijaciju ovisno o veličini modela: manji modeli (Qwen3-8B) probijaju budžet, dok veći ostaju pouzdani unutar testiranog raspona. Drugim riječima, manji modeli kompenziraju slabiju memoriju kroz više poziva — što izlazi izvan praktičnih granica.
Conditional scalability
Tim zaključuje da “gubitak pouzdanosti nije jedinstvena pojava” i zagovara conditional scalability claims — tvrdnje o skalabilnosti koje se odnose na specifične agent konfiguracije, dizajn interfejsa, raspone skale i ograničenja interakcije. Za produkciju to znači da generičke izjave tipa “naša memorija skalira” više nisu dovoljne — potrebno je navesti pod kojim uvjetima i s kojim sustavom.
Česta pitanja
- Što je HippoRAG i kako se ponaša?
- HippoRAG je sustav memorije za agente inspiriran ljudskim hipokampalnim podsjećanjem. U novom benchmarku ostaje unutar dopuštenog budžeta poziva ali gubi 16-20 postotnih bodova budget-compliant pouzdanosti dok se gomilaju irelevantne sesije — što ga čini krhkim u dugotrajnim agent deployment-ima.
- Što razlikuje flat, planar i hierarchical memory interfejs?
- Flat memorija drži zapise u jednoj ravnoj listi (pretraga skalira linearno). Planar dodaje grupiranje ili indekse na jednoj razini. Hierarchical organizira memoriju u stablo ili više razina sažimanja. Rad evaluira sva tri pristupa pod istim scale-conditioned protokolom.
- Zašto budget-compliant pouzdanost?
- Agenti rade pod ograničenjima poziva — memory query je trošak. Budget-compliant pouzdanost mjeri koliko često agent dobije točan odgovor unutar dopuštenog broja memory poziva. Ako sustav 'vara' tako da poziva memoriju 100 puta, formalno postiže točnost ali nije iskoristiv u produkciji.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije