arXiv MedMemoryBench: 医疗智能体的记忆能力评测

MedMemoryBench 是首个针对个性化医疗 AI 智能体记忆机制的基准测试，由浙江大学团队于 2026 年 5 月 12 日在 arXiv 发布。通过人机协同流程构建了约 2000 个会话与 16000 个交互轮次。核心发现：主流 AI 架构在医疗推理场景下表现出记忆饱和现象，持续信息涌入会导致性能下降。

王一豪、徐浩然、顾仁杰、叶奕轩、陈昕怡、穆昕宇等人于 2026 年 5 月 12 日发布了 MedMemoryBench——首个系统性评测个性化医疗 AI 智能体记忆机制的基准测试。研究揭示，主流架构在高风险医疗场景中存在严重的性能瓶颈。

MedMemoryBench 填补了哪些空白？

现有智能体记忆基准测试聚焦于日常对话，无法捕捉真实医疗应用的复杂性。医疗场景有其特殊需求——跨周记忆治疗方案、整合实验室结果、追踪禁忌症、维护患者病史上下文。MedMemoryBench 围绕这些挑战构建数据集，通过人机协同流程生成基于临床的合成患者档案，包含 约 2000 个会话与 16000 个交互轮次。

什么是记忆饱和？

研究的核心发现是「记忆饱和」现象——超过某个临界点后，持续涌入的信息反而会降低性能，而非提升。智能体无法从积累的历史中提取有效信号，在医疗推理场景下直接导致精度下降。饱和现象表明，经典记忆架构（RAG、向量存储、滑动窗口）在高风险领域缺乏优先级排序或压缩机制。

「边构建边评估」协议有何不同？

全新的「流式评估协议」模拟生产系统中记忆随使用动态增长的真实场景，而非传统静态评估中预先设定全部记忆再开始测试的方式。该协议能够追踪性能随时间的降级过程，并识别饱和临界点。

全面的基准测试结果表明，主流架构在医疗推理复杂性与噪声数据鲁棒性方面存在显著瓶颈——这意味着，若医疗 AI 智能体要达到生产就绪水平，需要针对特定领域的专用记忆设计。

常见问题

医疗智能体中的「记忆饱和」是什么？

「记忆饱和」是在 MedMemoryBench 评估中发现的现象：超过某个临界点后，持续涌入的新医疗信息反而会降低智能体性能——系统无法从积累的历史中提取有效信号，推理精度随之下降。

MedMemoryBench 与现有基准测试有何不同？

现有基准测试聚焦于日常对话，无法捕捉高风险医疗应用的复杂性；MedMemoryBench 采用「边构建边评估的流式评估协议」，模拟生产系统中记忆动态积累的真实场景，而非静态评估。

arXiv:2605.11814 MedMemoryBench 揭示医疗智能体中的记忆饱和现象——2000 个会话，16000 轮对话

MedMemoryBench 填补了哪些空白？

什么是记忆饱和？

「边构建边评估」协议有何不同？

常见问题

来源

相关新闻