LangChain：提示缓存让代理运行更快

LangChain在Deep Agents框架中引入了提示缓存——一种在代理步骤之间复用已计算上下文的技术——旨在降低多轮代理的延迟和成本。

什么是提示缓存，为什么没有它代理消耗太多资源？

提示缓存是LLM系统存储对长系统提示或上下文窗口处理的中间结果的技术——这样循环中的每次后续调用跳过对已见内容的重新处理。没有缓存，代理的每个步骤都会重新发送整个上下文（工具、历史记录、指令），这会随着迭代次数的增加使延迟和成本成倍增加。

LangChain在自己的Deep Agents框架中描述了一种方法，将上下文的共同部分——工具定义、系统指令、初始步骤——设置一次并在同一代理会话的所有调用间共享。作者Alex Olsen强调，这优化了代理步骤之间的上下文复用，且对于具有长循环和稳定系统提示的代理收益最为显著。

没有缓存，代理的每个步骤都承担LLM调用的全部成本——在多步骤流程中，这意味着线性增长的成本和延迟。有了缓存，新令牌的成本仅落在增量——上下文中改变的部分。Deep Agents的具体节省百分比未公开，但类似系统（如AWS/Stripe的生产实现）使用同类技术记录到了高达60%的消耗减少。

LangChain博客文章面向构建多轮代理并寻求在不损失输出质量的情况下降低运营成本的开发团队。

常见问题

什么是提示缓存，为什么它对代理很重要？

提示缓存是一种存储长上下文窗口已计算中间结果的技术，使代理的每个后续步骤能够跳过对相同内容的重新处理——从而降低每步的延迟和成本。

这项技术适用于哪些代理？

适用于在循环中调用工具或检查结果的长期运行代理，尤其是在LangChain Deep Agents框架中，随着迭代次数增加，上下文会不断增长的场景。