arXiv:2605.22786:LCGuard保护多智能体系统中共享KV缓存,防止智能体间数据泄露
LCGuard是一个新框架,用于保护多智能体系统中为提高效率而共享KV缓存时的数据泄露问题。由IBM Research和MIT的研究人员在Sadie Asif领衔下提出的研究,为「隐性通信守卫」方法建立了首个正式模型,适用于多个智能体通过共享内存共享上下文的生产级智能体RAG系统。
本文由人工智能基于一手来源生成。
arXiv预印本LCGuard于2026年5月22日发布,提出了保护多智能体LLM系统中共享KV缓存的首个正式框架。这是IBM Research与MIT合作的研究成果,由Sadie Asif领衔。作者记录了近几个月在生产级企业智能体RAG系统中出现的漏洞,并提出了一个无需中断现有基础设施即可应用的具体解决方案。
什么是共享KV缓存,为什么要使用它?
在经典的LLM工作流中,每次API调用都会为提示词生成新的KV缓存——这意味着推理是原子性的,没有跨调用持久化的状态。在企业级多智能体系统中,这种模式成本高昂。如果五个智能体独立处理同一份机密PDF,每个智能体都要从头重建同样的KV缓存,这将消耗5倍的GPU内存和5倍的计算量。
厂商越来越多实现的优化方案是共享KV缓存。PDF只处理一次,生成约200MB GPU内存的KV缓存,所有智能体都获得指向该缓存的指针。每个智能体的推理从预填充状态开始,只需追加自己特定的提示后缀。如作者所述,这可实现3到5倍的成本降低,对于高并发工作负载来说,这决定了部署是否可持续。
数据泄露是如何发生的?
KV缓存并非纯文本——它是对原始文档的语义信息进行编码的嵌入向量。但这些向量并非不可逆转换。注意力机制可以通过作者称为「注意力探测」的策略从中提取大量信息。
具体攻击方式:智能体B对共享KV缓存具有合法访问权(例如,因为它处理相关文档)。智能体B可以构造特定提示词,通过注意力层5到15来针对特定KV缓存区域,从而从嵌入向量中重建原始PDF中的个别敏感实体——客户姓名、合同编号、金额。作者证明,重建结果并不完美,但对命名实体的准确召回率达到60%到80%。
这个攻击向量意义重大,因为企业用户通常认为「智能体只能访问自己的提示词」。而现实是,智能体可以访问跨越安全边界共享的整个文档的KV缓存——这一点在任何生产API文档中都没有记录。
LCGuard如何封闭这个漏洞?
LCGuard添加了两道防线。
第一道防线——密码学隔离: 每个KV缓存都用依赖于文档安全域来源的密钥加密。不属于该域的智能体可以看到缓存提示(是否存在、大小如何),但无法使用它——只有当智能体出示相应的域凭证时才会进行解密。这意味着「财务/机密」域的PDF拥有市场营销智能体无法解密的KV缓存,尽管其在物理上占用相同的GPU内存。
第二道防线——运行时注意力探测检测器: 后端实时监控注意力模式并识别可疑模式。典型的探测使用伪随机提示结构,最大化目标KV槽上的注意力变化。LCGuard以95%以上的精度检测此模式(作者在50,000个合法查询中记录了极低的误报率)。
实现开销和兼容性
LCGuard需要修改推理引擎(vLLM、TGI、SGLang)中的注意力层。作者已开放了vLLM的参考实现。吞吐量开销在最坏情况下(全部缓存加密)为8%到12%,在典型场景下(加密和普通缓存区域混合)为3%到5%。对于必须满足合规要求的企业租户而言,这是可接受的代价。
研究结论建议:LCGuard应成为在安全域之间使用共享KV缓存的企业部署的默认开启选项。没有这道防御,组织在不知情的情况下违反了自身的数据分类政策。
常见问题
- 为什么智能体要共享KV缓存?
- 在企业级多智能体系统中,多个智能体通常处理相关任务并共享同一上下文内存以提高效率——与其让每个智能体重新计算同一文档的KV缓存,系统只生成一次并共享。这可将推理成本降低3到5倍。
- 共享KV缓存有什么风险?
- KV缓存包含经过LLM处理的词元的语义嵌入向量。如果智能体A处理了一份机密文档并留下了其KV缓存,可以访问同一缓存的智能体B就能通过注意力探测从中重建部分机密内容。
- LCGuard如何封闭这个漏洞?
- 该框架在不同安全级别(安全域)的KV缓存区域之间添加了密码学隔离。缓存可以在同一域内共享,但不能跨越域边界。此外,框架还添加了运行时检测器,能在注意力探测尝试产生输出之前识别并阻止它们。