arXiv:2605.07313: agent memorija ne skalira

Rad arXiv:2605.07313 je scale-conditioned evaluacijski protokol koji testira ostaju li sustavi memorije agenata funkcionalni dok se gomilaju irelevantni podaci. HippoRAG gubi 16-20 postotnih bodova budget-compliant pouzdanosti, dok LiCoMemory varira ovisno o veličini modela. Autori (Shao, Lu, Zhang, Luo) zaključuju da gubitak pouzdanosti nije jedinstvena pojava.

Novi arXiv rad (arXiv:2605.07313) postavlja oštro pitanje: rade li agent memory sustavi dobro kad mu se nakupi irelevantnih podataka? Autori Jiaqi Shao, Yiyi Lu, Yunzhen Zhang i Bing Luo predstavljaju scale-conditioned evaluacijski protokol koji ne mjeri samo statičku točnost, već “je li dokaz upotrebljiv kako se gomilaju irelevantne sesije”.

Što benchmark mjeri

Protokol evaluira tri tipa memorijskih interfejsa — flat, planar i hierarchical — kroz više sustava. Mjeri četiri dijagnostičke veličine: budget-compliant pouzdanost, opterećenje memory poziva na ekstremima skale, klasifikaciju modova greški i granicu iskoristive skale.

Glavni nalazi: HippoRAG i LiCoMemory

HippoRAG ostaje unutar budžeta poziva ali gubi 16-20 postotnih bodova budget-compliant pouzdanosti dok se irelevantne sesije gomilaju. To znači da formalno radi, ali daje sve manje točnih odgovora pod istim ograničenjima poziva.

LiCoMemory pokazuje varijaciju ovisno o veličini modela: manji modeli (Qwen3-8B) probijaju budžet, dok veći ostaju pouzdani unutar testiranog raspona. Drugim riječima, manji modeli kompenziraju slabiju memoriju kroz više poziva — što izlazi izvan praktičnih granica.

Conditional scalability

Tim zaključuje da “gubitak pouzdanosti nije jedinstvena pojava” i zagovara conditional scalability claims — tvrdnje o skalabilnosti koje se odnose na specifične agent konfiguracije, dizajn interfejsa, raspone skale i ograničenja interakcije. Za produkciju to znači da generičke izjave tipa “naša memorija skalira” više nisu dovoljne — potrebno je navesti pod kojim uvjetima i s kojim sustavom.

Česta pitanja

Što je HippoRAG i kako se ponaša?

HippoRAG je sustav memorije za agente inspiriran ljudskim hipokampalnim podsjećanjem. U novom benchmarku ostaje unutar dopuštenog budžeta poziva ali gubi 16-20 postotnih bodova budget-compliant pouzdanosti dok se gomilaju irelevantne sesije — što ga čini krhkim u dugotrajnim agent deployment-ima.

Što razlikuje flat, planar i hierarchical memory interfejs?

Flat memorija drži zapise u jednoj ravnoj listi (pretraga skalira linearno). Planar dodaje grupiranje ili indekse na jednoj razini. Hierarchical organizira memoriju u stablo ili više razina sažimanja. Rad evaluira sva tri pristupa pod istim scale-conditioned protokolom.

Zašto budget-compliant pouzdanost?

Agenti rade pod ograničenjima poziva — memory query je trošak. Budget-compliant pouzdanost mjeri koliko često agent dobije točan odgovor unutar dopuštenog broja memory poziva. Ako sustav 'vara' tako da poziva memoriju 100 puta, formalno postiže točnost ali nije iskoristiv u produkciji.

arXiv:2605.07313: agent memory ne skalira — HippoRAG gubi 16-20 pp pouzdanosti s rastom irelevantnih sesija

Što benchmark mjeri

Glavni nalazi: HippoRAG i LiCoMemory

Conditional scalability

Česta pitanja

Izvori

Povezane vijesti