vLLM: TurboQuant研究显示FP8在KV-cache中仍居优势——3bit-nc准确率下降约20个百分点
Red Hat AI团队对TurboQuant激进KV-cache量化方法(3-4位)与FP8标准进行了系统对比。结果显示FP8保持吞吐量和精度,而3bit-nc变体在AIME25等高难度推理基准上损失约20个百分点。
本文由人工智能基于一手来源生成。
Red Hat AI团队工程师Eldar Kurtić、Michael Goin和Alexandre Marques于2026年5月11日发布了首项针对vLLM推理引擎中TurboQuant KV-cache量化方法的综合评估。该研究对比了FP8标准与3-4位激进量化变体在生产级模型和基准上的表现。
TurboQuant是什么,与FP8有何区别?
TurboQuant将KV-cache存储压缩至3-4位,然后在执行attention计算时将数值反量化回BF16。相比之下,FP8同时量化存储和计算两个环节,在整个pipeline中保持吞吐量。测试的变体包括k8v4(8位键,4位值)、4bit-nc(带范数校正)以及最激进的3bit-nc。
内存容量和吞吐量测试结果如何?
在Llama-3.3-70B、Qwen3-30B和MiniMax-M2.7模型上测得的节省如下:FP8提供2倍容量,k8v4为2.4倍,4bit-nc为3.4倍。但吞吐量有所下降——TurboQuant变体保持基准速度的66-80%,延迟增加10-68%,具体取决于batch size。FP8保持完整基准吞吐量。
推理任务的精度损失有多大?
在AIME25、GPQA:Diamond、MATH500和LiveCodeBench-v6基准上,最激进的变体(3bit-nc、k3v4-nc)损失约20个百分点。较温和的4bit-nc仅损失1-4分。长上下文评估(openai/mrcr,最长256k token)也显示了类似规律。
Red Hat AI对生产部署的建议是什么?
结论明确无误:「FP8仍是KV-cache量化的最佳默认选择。」它提供2倍容量,同时不损失任何吞吐量或精度。更激进的TurboQuant变体仅适用于内存极度受限的场景,此时4bit-nc以最小精度代价提供3.4倍内存节省。
常见问题
- 什么是KV-cache,为什么要量化它?
- KV-cache(键值缓存)是transformer模型中存储前序token attention层中间结果的内存结构。将KV-cache量化(从FP16/BF16降至8位或更低精度)可显著减少VRAM消耗并支持更长的上下文窗口,但可能影响生成质量。
- 为什么FP8优于更激进的TurboQuant变体?
- FP8同时量化存储和attention计算,而TurboQuant变体仅压缩存储,在计算时反量化回BF16。反量化开销随batch size增大导致10-68%的速度下降,而激进的3位变体则损失数学推理所需的精度。
- 在何种情况下值得使用4bit-nc?
- 4bit-nc在基准测试中仅损失1-4分,但节省3.4倍内存,适用于内存极度受限的场景——例如在较小GPU上服务超长上下文(256k token)而FP8无法装入时。