arXiv:2605.19660:OScaR — INT2量化KV缓存实现3倍解码加速
研究人员发布了OScaR,一种解决大型语言模型KV缓存量化根本问题的方法。采用INT2精度——每个数值仅用2比特——实现了几乎无损的精度、3倍解码加速、5.3倍内存压缩,以及与BF16 FlashDecoding-v2相比4.1倍的吞吐量提升。
本文由人工智能基于一手来源生成。
内存是当今在生产环境中运行大型语言模型的最大瓶颈之一。每次模型生成新token时,都必须访问整个对话上下文——这个临时内存,即KV缓存(键值缓存),随上下文长度线性增长,可能占用GPU上数十GB的RAM。
为何极端KV缓存压缩此前是个未解难题?
标准方法是量化——将数值以更小的格式存储,而非16位浮点数。INT4(4比特)会带来可接受的精度损失,但INT2(2比特)此前会导致精度大幅下降。研究人员已识别出根本原因:token范数不平衡——某些维度存在异常值,2比特表示根本无法精确存储这些值。
OScaR(奥卡姆剃刀)通过优雅的两步方案解决了这一问题:通道旋转对数值分布进行归一化,随后全局Token缩放对每个token的剩余变化进行缩放。结果是INT2量化在基准测试中达到了作者所称的「近乎无损」精度。
具体数字说明什么?
与BF16 FlashDecoding-v2(高效推理的事实标准)相比:
- 3.0倍解码加速 — 模型响应速度提升三倍
- 5.3倍内存压缩 — 同一GPU可处理更长的上下文或更多并行请求
- 4.1倍吞吐量提升 — 同等硬件可服务更多用户
该方法适用于文本、多模态和全模态模型,代码已在GitHub公开,论文于2026年5月19日提交同行评审。
对AI基础设施的实际意义
对于在云端运行LLM推理的企业,这些数字直接转化为成本。若同一GPU能以相同延迟处理4倍的请求量,每次查询的成本将下降约75%。OScaR若能通过同行评审并在更广泛的模型范围内复现相同结果,有望成为推理技术栈的标准组件,与FlashAttention和投机解码并驾齐驱。
常见问题
- 什么是KV缓存?为何难以压缩?
- KV缓存(键值缓存)是语言模型存储已处理token注意力中间结果的临时内存。没有它,每个新token都需要重新计算整个上下文。压缩的难点在于「token范数不平衡」——某些维度具有极高的数值,标准量化算法无法在少量比特中精确捕捉。
- INT2量化具体意味着什么?
- INT2量化意味着KV缓存中的每个数值仅用2比特存储,而非标准的16或32比特。这是「极端」压缩——比常见BF16格式小8到16倍。OScaR通过旋转和token缩放,使这种压缩几乎不影响模型精度。
- OScaR是否仅适用于文本模型?
- 不是——OScaR专为文本、多模态和全模态语言模型设计,使其适用于更广泛的现代AI系统生态,包括结合文本、图像和音频的模型。