基础设施

KV 缓存

缓存注意力的键/值张量并在各解码步骤间复用,以加速大语言模型的推理。

KV 缓存KV cache)是一种推理加速技术,它把注意力机制各层计算出的键(K)和值(V)张量存储起来,以便在连续的文本生成步骤之间复用。

大语言模型逐个生成 token,每个新 token 都要关注此前的所有 token。若没有缓存,模型每一步都要为整个序列重新计算 K 和 V 投影,计算量随长度呈平方增长。由于这些张量在 token 处理完后不再变化,KV 缓存将其保存下来,于是每个新 token 的注意力只需在该 token 上计算。这把推理成本从平方级降到接近线性。

在 2025 至 2026 年间,KV 缓存是长上下文窗口和高吞吐场景下的主要内存瓶颈。其占用随序列长度和并发请求数增长,因此催生了多查询与分组查询注意力、缓存量化以及分页(PagedAttention)等技术来控制内存。

来源

另见