arXiv:2605.22337:Meta-Soft通过可组合元令牌和可学习正交基引入KV缓存压缩
研究人员提出了Meta-Soft,一种用于LLM推理中动态KV缓存压缩的新方法。该方法使用可学习的正交基矩阵和选择器网络,合成软元令牌——长提示中关键信息的压缩表示。注意力流机制将已删除令牌的语义信息重新分配给保留的令牌,在大多数长上下文基准测试中优于现有的KV缓存驱逐方法。
本文由人工智能基于一手来源生成。
2026年5月21日发布的arXiv预印本Meta-Soft提出了一种在LLM推理过程中动态压缩KV缓存的新方法,结合了三种技术:可学习的正交基矩阵、用于令牌选择的选择器网络以及用于信息重新分配的注意力流机制。在大多数长上下文基准测试中,它实验性地超越了现有的KV缓存驱逐方法(StreamingLLM、H2O、SnapKV),质量下降更小。
什么是KV缓存,为什么压缩至关重要?
当LLM生成令牌时,它必须访问上下文中所有前一个令牌的注意力键和值向量。这些向量被缓存在GPU内存中,以避免为每个新令牌重新计算。对于具有100K令牌上下文的Llama 3 70B,KV缓存占用约40 GB——对于某些配置,这大于模型权重本身。
对于长上下文模型(Gemini 1.5 Pro、GPT-4.1和Claude Opus 4.7中的1M+令牌上下文),这个问题尤为严重。没有压缩,每个GPU的批量大小必须降至1-2个请求,这在经济上破坏了部署。所有前沿模型在生产中都使用某种形式的KV缓存优化,但现有技术存在权衡:删除令牌(驱逐)或量化(量化),两者都会在长上下文中带来可测量的质量下降。
Meta-Soft如何以不同方式处理问题?
Meta-Soft不删除令牌也不量化它们。相反,它生成合成的元令牌,将多个原始令牌的信息压缩到一个压缩实体中。生成通过两个组件进行:
-
可学习的正交基矩阵B:在微调阶段,模型学习一个形状为[d × k]的矩阵B,其中d是嵌入维度(例如4096),k是基向量的数量(例如256)。矩阵B是正交的(B^T B = I),保证向基的投影和返回最小化信息损失。
-
选择器网络S:对于n个令牌的组(例如n=8),选择器决定用多少元令牌替换它们——从1到n。选择器是一个小型前馈网络,通过最小化质量损失来训练,同时以目标缓存预算为约束。
输出是一个元令牌,几何上位于与原始令牌相同的嵌入空间中,但综合了多个令牌的信息。下游注意力层在缓存中获得更少数量的令牌,但每个令牌携带更多信息。
什么是注意力流,为何重要?
当8个原始令牌的组被2个元令牌替换时,未来层应分配给8个令牌的注意力权重必须重新分配到2个。朴素的分配(仅权重求和)会导致失真——某个只关注原始第3个令牌的注意力头现在关注包含其他令牌信息的元令牌#1。
注意力流通过训练时的过程解决这个问题:在微调阶段,模型学习从原始注意力权重到元令牌权重的映射,保持语义等价性。有了这个映射,运行时推理将注意力权重重新分配到新的缓存表示,无需再训练。
实验结果是什么?
作者在四个基准上测试:LongBench(一般长上下文)、Needle-in-Haystack(信息检索测试)、RULER(多针推理)和SCBench(50+子任务)。与基线比较:
- StreamingLLM(删除中间令牌):4倍压缩时质量下降8-15%
- H2O(重击手驱逐):4倍压缩时质量下降5-10%
- SnapKV(基于重要性的驱逐):4倍压缩时质量下降3-8%
- Meta-Soft(本文):4倍压缩时质量下降1-3%
在8倍压缩时差异增大——Meta-Soft约为-4至-7%,而SnapKV降至-12至-18%。吞吐量提升与压缩线性成比例:KV缓存4倍压缩意味着同一GPU上批量大小提升3.8倍(选择器网络有轻微开销)。
对部署的实际影响
Meta-Soft需要在基矩阵和选择器上对模型进行微调——这不是即插即用的。作者为Llama 3 70B、Qwen 2.5 72B和Mistral Large 2发布了预训练变体。对于前沿模型(GPT-5、Claude)的生产部署,提供商需要在内部实现该方法——Meta-Soft本身不适用于封闭模型。
目前潜在的采用者是开源推理平台(vLLM、TGI、SGLang),它们可以将Meta-Soft作为现有KV缓存策略的替代品加以支持。作者在其GitHub仓库中开放了参考实现。
常见问题
- 什么是KV缓存,为什么需要压缩?
- KV缓存(键值缓存)是LLM在推理过程中存储前一个令牌的注意力键和值的内存。随着上下文增长,KV缓存成为GPU内存的主要占用者——对于100K令牌上下文的Llama 3 70B,仅KV缓存就占用40+ GB。
- Meta-Soft方法中的元令牌是什么?
- 元令牌是合成的「摘要」令牌,将多个原始令牌的关键信息编码到一个压缩实体中。它们由模型在微调阶段学习的可学习正交基矩阵生成。与驱逐方法的区别:不删除令牌,而是对其进行压缩。
- 什么是注意力流机制?
- 当一个令牌从缓存中删除时,其语义信息必须被重定向到某处。注意力流通过元令牌将注意力权重从被删除的令牌重新分配到保留的令牌,使下游计算看到等效信息而不需要原始令牌。