arXiv LCGuard：多智能体中的KV缓存安全防护

LCGuard是一个新框架，用于保护多智能体系统中为提高效率而共享KV缓存时的数据泄露问题。由IBM Research和MIT的研究人员在Sadie Asif领衔下提出的研究，为「隐性通信守卫」方法建立了首个正式模型，适用于多个智能体通过共享内存共享上下文的生产级智能体RAG系统。

arXiv预印本LCGuard于2026年5月22日发布，提出了保护多智能体LLM系统中共享KV缓存的首个正式框架。这是IBM Research与MIT合作的研究成果，由Sadie Asif领衔。作者记录了近几个月在生产级企业智能体RAG系统中出现的漏洞，并提出了一个无需中断现有基础设施即可应用的具体解决方案。

什么是共享KV缓存，为什么要使用它？

在经典的LLM工作流中，每次API调用都会为提示词生成新的KV缓存——这意味着推理是原子性的，没有跨调用持久化的状态。在企业级多智能体系统中，这种模式成本高昂。如果五个智能体独立处理同一份机密PDF，每个智能体都要从头重建同样的KV缓存，这将消耗5倍的GPU内存和5倍的计算量。

厂商越来越多实现的优化方案是共享KV缓存。PDF只处理一次，生成约200MB GPU内存的KV缓存，所有智能体都获得指向该缓存的指针。每个智能体的推理从预填充状态开始，只需追加自己特定的提示后缀。如作者所述，这可实现3到5倍的成本降低，对于高并发工作负载来说，这决定了部署是否可持续。

数据泄露是如何发生的？

KV缓存并非纯文本——它是对原始文档的语义信息进行编码的嵌入向量。但这些向量并非不可逆转换。注意力机制可以通过作者称为「注意力探测」的策略从中提取大量信息。

具体攻击方式：智能体B对共享KV缓存具有合法访问权（例如，因为它处理相关文档）。智能体B可以构造特定提示词，通过注意力层5到15来针对特定KV缓存区域，从而从嵌入向量中重建原始PDF中的个别敏感实体——客户姓名、合同编号、金额。作者证明，重建结果并不完美，但对命名实体的准确召回率达到60%到80%。

这个攻击向量意义重大，因为企业用户通常认为「智能体只能访问自己的提示词」。而现实是，智能体可以访问跨越安全边界共享的整个文档的KV缓存——这一点在任何生产API文档中都没有记录。

LCGuard如何封闭这个漏洞？

LCGuard添加了两道防线。

第一道防线——密码学隔离： 每个KV缓存都用依赖于文档安全域来源的密钥加密。不属于该域的智能体可以看到缓存提示（是否存在、大小如何），但无法使用它——只有当智能体出示相应的域凭证时才会进行解密。这意味着「财务/机密」域的PDF拥有市场营销智能体无法解密的KV缓存，尽管其在物理上占用相同的GPU内存。

第二道防线——运行时注意力探测检测器： 后端实时监控注意力模式并识别可疑模式。典型的探测使用伪随机提示结构，最大化目标KV槽上的注意力变化。LCGuard以95%以上的精度检测此模式（作者在50,000个合法查询中记录了极低的误报率）。

实现开销和兼容性

LCGuard需要修改推理引擎（vLLM、TGI、SGLang）中的注意力层。作者已开放了vLLM的参考实现。吞吐量开销在最坏情况下（全部缓存加密）为8%到12%，在典型场景下（加密和普通缓存区域混合）为3%到5%。对于必须满足合规要求的企业租户而言，这是可接受的代价。

研究结论建议：LCGuard应成为在安全域之间使用共享KV缓存的企业部署的默认开启选项。没有这道防御，组织在不知情的情况下违反了自身的数据分类政策。

常见问题

为什么智能体要共享KV缓存？

在企业级多智能体系统中，多个智能体通常处理相关任务并共享同一上下文内存以提高效率——与其让每个智能体重新计算同一文档的KV缓存，系统只生成一次并共享。这可将推理成本降低3到5倍。

共享KV缓存有什么风险？

KV缓存包含经过LLM处理的词元的语义嵌入向量。如果智能体A处理了一份机密文档并留下了其KV缓存，可以访问同一缓存的智能体B就能通过注意力探测从中重建部分机密内容。

LCGuard如何封闭这个漏洞？

该框架在不同安全级别（安全域）的KV缓存区域之间添加了密码学隔离。缓存可以在同一域内共享，但不能跨越域边界。此外，框架还添加了运行时检测器，能在注意力探测尝试产生输出之前识别并阻止它们。

arXiv:2605.22786：LCGuard保护多智能体系统中共享KV缓存，防止智能体间数据泄露

什么是共享KV缓存，为什么要使用它？

数据泄露是如何发生的？

LCGuard如何封闭这个漏洞？

实现开销和兼容性

常见问题

来源

相关新闻