OScaR：INT2 KV缓存量化——3倍解码加速、5倍内存压缩

研究人员发布了OScaR，一种解决大型语言模型KV缓存量化根本问题的方法。采用INT2精度——每个数值仅用2比特——实现了几乎无损的精度、3倍解码加速、5.3倍内存压缩，以及与BF16 FlashDecoding-v2相比4.1倍的吞吐量提升。

内存是当今在生产环境中运行大型语言模型的最大瓶颈之一。每次模型生成新token时，都必须访问整个对话上下文——这个临时内存，即KV缓存（键值缓存），随上下文长度线性增长，可能占用GPU上数十GB的RAM。

为何极端KV缓存压缩此前是个未解难题？

标准方法是量化——将数值以更小的格式存储，而非16位浮点数。INT4（4比特）会带来可接受的精度损失，但INT2（2比特）此前会导致精度大幅下降。研究人员已识别出根本原因：token范数不平衡——某些维度存在异常值，2比特表示根本无法精确存储这些值。

OScaR（奥卡姆剃刀）通过优雅的两步方案解决了这一问题：通道旋转对数值分布进行归一化，随后全局Token缩放对每个token的剩余变化进行缩放。结果是INT2量化在基准测试中达到了作者所称的「近乎无损」精度。

与BF16 FlashDecoding-v2（高效推理的事实标准）相比：

该方法适用于文本、多模态和全模态模型，代码已在GitHub公开，论文于2026年5月19日提交同行评审。

对于在云端运行LLM推理的企业，这些数字直接转化为成本。若同一GPU能以相同延迟处理4倍的请求量，每次查询的成本将下降约75%。OScaR若能通过同行评审并在更广泛的模型范围内复现相同结果，有望成为推理技术栈的标准组件，与FlashAttention和投机解码并驾齐驱。

常见问题

什么是KV缓存？为何难以压缩？

KV缓存（键值缓存）是语言模型存储已处理token注意力中间结果的临时内存。没有它，每个新token都需要重新计算整个上下文。压缩的难点在于「token范数不平衡」——某些维度具有极高的数值，标准量化算法无法在少量比特中精确捕捉。

INT2量化具体意味着什么？

INT2量化意味着KV缓存中的每个数值仅用2比特存储，而非标准的16或32比特。这是「极端」压缩——比常见BF16格式小8到16倍。OScaR通过旋转和token缩放，使这种压缩几乎不影响模型精度。

OScaR是否仅适用于文本模型？

不是——OScaR专为文本、多模态和全模态语言模型设计，使其适用于更广泛的现代AI系统生态，包括结合文本、图像和音频的模型。