vLLM TurboQuant研究：FP8在KV-cache量化中仍是最优选择

Red Hat AI团队对TurboQuant激进KV-cache量化方法（3-4位）与FP8标准进行了系统对比。结果显示FP8保持吞吐量和精度，而3bit-nc变体在AIME25等高难度推理基准上损失约20个百分点。

Red Hat AI团队工程师Eldar Kurtić、Michael Goin和Alexandre Marques于2026年5月11日发布了首项针对vLLM推理引擎中TurboQuant KV-cache量化方法的综合评估。该研究对比了FP8标准与3-4位激进量化变体在生产级模型和基准上的表现。

TurboQuant是什么，与FP8有何区别？

TurboQuant将KV-cache存储压缩至3-4位，然后在执行attention计算时将数值反量化回BF16。相比之下，FP8同时量化存储和计算两个环节，在整个pipeline中保持吞吐量。测试的变体包括k8v4（8位键，4位值）、4bit-nc（带范数校正）以及最激进的3bit-nc。

内存容量和吞吐量测试结果如何？

在Llama-3.3-70B、Qwen3-30B和MiniMax-M2.7模型上测得的节省如下：FP8提供2倍容量，k8v4为2.4倍，4bit-nc为3.4倍。但吞吐量有所下降——TurboQuant变体保持基准速度的66-80%，延迟增加10-68%，具体取决于batch size。FP8保持完整基准吞吐量。

推理任务的精度损失有多大？

在AIME25、GPQA:Diamond、MATH500和LiveCodeBench-v6基准上，最激进的变体（3bit-nc、k3v4-nc）损失约20个百分点。较温和的4bit-nc仅损失1-4分。长上下文评估（openai/mrcr，最长256k token）也显示了类似规律。

Red Hat AI对生产部署的建议是什么？

结论明确无误：「FP8仍是KV-cache量化的最佳默认选择。」它提供2倍容量，同时不损失任何吞吐量或精度。更激进的TurboQuant变体仅适用于内存极度受限的场景，此时4bit-nc以最小精度代价提供3.4倍内存节省。

常见问题

什么是KV-cache，为什么要量化它？

KV-cache（键值缓存）是transformer模型中存储前序token attention层中间结果的内存结构。将KV-cache量化（从FP16/BF16降至8位或更低精度）可显著减少VRAM消耗并支持更长的上下文窗口，但可能影响生成质量。

为什么FP8优于更激进的TurboQuant变体？

FP8同时量化存储和attention计算，而TurboQuant变体仅压缩存储，在计算时反量化回BF16。反量化开销随batch size增大导致10-68%的速度下降，而激进的3位变体则损失数学推理所需的精度。

在何种情况下值得使用4bit-nc？

4bit-nc在基准测试中仅损失1-4分，但节省3.4倍内存，适用于内存极度受限的场景——例如在较小GPU上服务超长上下文（256k token）而FP8无法装入时。

vLLM: TurboQuant研究显示FP8在KV-cache中仍居优势——3bit-nc准确率下降约20个百分点

TurboQuant是什么，与FP8有何区别？

内存容量和吞吐量测试结果如何？

推理任务的精度损失有多大？

Red Hat AI对生产部署的建议是什么？

常见问题

来源

相关新闻