KV 缓存

缓存注意力的键/值张量并在各解码步骤间复用，以加速大语言模型的推理。

KV 缓存（KV cache）是一种推理加速技术，它把注意力机制各层计算出的键（K）和值（V）张量存储起来，以便在连续的文本生成步骤之间复用。

大语言模型逐个生成 token，每个新 token 都要关注此前的所有 token。若没有缓存，模型每一步都要为整个序列重新计算 K 和 V 投影，计算量随长度呈平方增长。由于这些张量在 token 处理完后不再变化，KV 缓存将其保存下来，于是每个新 token 的注意力只需在该 token 上计算。这把推理成本从平方级降到接近线性。

在 2025 至 2026 年间，KV 缓存是长上下文窗口和高吞吐场景下的主要内存瓶颈。其占用随序列长度和并发请求数增长，因此催生了多查询与分组查询注意力、缓存量化以及分页（PagedAttention）等技术来控制内存。

来源

另见

https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)#KV_caching