arXiv MedMemoryBench: memorija medicinskih agenata

MedMemoryBench je prvi benchmark za memory mehanizme u personaliziranim healthcare agentima objavljen 12. svibnja 2026. na arXivu. Tim sa Sveučilišta Zhejiang izgradio je ~2.000 sesija i 16.000 turn-ova kroz human-agent collaborative pipeline. Glavni nalaz: mainstream AI arhitekture pokazuju memory saturation gdje continuous information influx degradira performance u medicinskom rasuđivanju.

Tim Yihao Wang, Haoran Xu, Renjie Gu, Yixuan Ye, Xinyi Chen, Xinyu Mu i suradnici objavili su 12. svibnja 2026. MedMemoryBench — prvi sustavni benchmark za memory mehanizme u personaliziranim healthcare AI agentima. Rad otkriva da mainstream arhitekture imaju ozbiljne bottleneck-e u high-stakes medicinskim scenarijima.

Koju prazninu MedMemoryBench popunjava?

Postojeći agent memory benchmark-i fokusiraju se na svakodnevne razgovore i ne hvataju kompleksnost real-world medicinskih aplikacija. Healthcare scenarij ima specifične zahtjeve — pamćenje terapijskih protokola kroz tjedne, integracija laboratorijskih rezultata, praćenje kontraindikacija, kontekst povijesti bolesti pacijenta. MedMemoryBench gradi dataset oko ovih izazova s ~2.000 sesija i 16.000 interaction turn-ova kroz human-agent collaborative pipeline koji koristi klinički utemeljene sintetičke profile pacijenata.

Što je memory saturation?

Glavni nalaz rada je fenomen “memory saturation” — nakon određene točke, continuous information influx degradira performance umjesto da ga pojačava. Agent ne uspijeva ekstrahirati signal iz akumulirane povijesti, što kod medicinskog rasuđivanja izravno smanjuje preciznost. Saturation otkriva da klasične memory arhitekture (RAG, vector store, sliding window) nemaju mehanizam za prioritizaciju ili compaction u high-stakes domeni.

Kako se evaluate-while-constructing protokol razlikuje?

Novi “streaming assessment protocol” oponaša proizvodne sustave gdje memorija raste tijekom korištenja, umjesto klasičnog static evaluation-a u kojem se cijela memorija postavlja prije testiranja. Protokol omogućuje praćenje degradacije kroz vrijeme i identifikaciju točke saturation-a.

Sveobuhvatno benchmarkiranje pokazuje da mainstream architecture imaju značajne bottleneck-e u medicinskoj reasoning kompleksnosti i robusnosti na noisy podatke — što sugerira potrebu za domain-specific memory dizajnom ako healthcare AI agenti žele dosegnuti production-ready razinu.

Česta pitanja

Što je memory saturation u medicinskim agentima?

Memory saturation je fenomen otkriven u MedMemoryBench evaluaciji gdje kontinuirani priliv novih medicinskih informacija nakon određene točke degradira agent performance — sistem ne uspijeva ekstrahirati signal iz nagomilane povijesti i preciznost rasuđivanja pada.

Po čemu se MedMemoryBench razlikuje od postojećih benchmark-ova?

Postojeći benchmark-i mjere svakodnevne razgovore, ne high-stakes medicinske aplikacije; MedMemoryBench koristi 'evaluate-while-constructing streaming assessment' koji oponaša dinamičku akumulaciju memorije u proizvodnim sustavima umjesto static evaluation-a.

arXiv:2605.11814 MedMemoryBench otkriva memory saturation u medicinskim agentima — 2.000 sesija, 16.000 turn-ova

Koju prazninu MedMemoryBench popunjava?

Što je memory saturation?

Kako se evaluate-while-constructing protokol razlikuje?

Česta pitanja

Izvori

Povezane vijesti