🟡 🔧 硬件 发布于: · 1 分钟阅读 ·

vLLM: TurboQuant研究显示FP8在KV-cache中仍居优势——3bit-nc准确率下降约20个百分点

Editorial illustration: TurboQuant研究显示FP8在KV-cache量化中仍居优势——3bit-nc准确率下降约20个百分点

Red Hat AI团队对TurboQuant激进KV-cache量化方法(3-4位)与FP8标准进行了系统对比。结果显示FP8保持吞吐量和精度,而3bit-nc变体在AIME25等高难度推理基准上损失约20个百分点。

🤖

本文由人工智能基于一手来源生成。

Red Hat AI团队工程师Eldar Kurtić、Michael Goin和Alexandre Marques于2026年5月11日发布了首项针对vLLM推理引擎中TurboQuant KV-cache量化方法的综合评估。该研究对比了FP8标准与3-4位激进量化变体在生产级模型和基准上的表现。

TurboQuant是什么,与FP8有何区别?

TurboQuant将KV-cache存储压缩至3-4位,然后在执行attention计算时将数值反量化回BF16。相比之下,FP8同时量化存储和计算两个环节,在整个pipeline中保持吞吐量。测试的变体包括k8v4(8位键,4位值)、4bit-nc(带范数校正)以及最激进的3bit-nc。

内存容量和吞吐量测试结果如何?

在Llama-3.3-70B、Qwen3-30B和MiniMax-M2.7模型上测得的节省如下:FP8提供2倍容量,k8v4为2.4倍,4bit-nc为3.4倍。但吞吐量有所下降——TurboQuant变体保持基准速度的66-80%,延迟增加10-68%,具体取决于batch size。FP8保持完整基准吞吐量。

推理任务的精度损失有多大?

在AIME25、GPQA:Diamond、MATH500和LiveCodeBench-v6基准上,最激进的变体(3bit-nc、k3v4-nc)损失约20个百分点。较温和的4bit-nc仅损失1-4分。长上下文评估(openai/mrcr,最长256k token)也显示了类似规律。

Red Hat AI对生产部署的建议是什么?

结论明确无误:「FP8仍是KV-cache量化的最佳默认选择。」它提供2倍容量,同时不损失任何吞吐量或精度。更激进的TurboQuant变体仅适用于内存极度受限的场景,此时4bit-nc以最小精度代价提供3.4倍内存节省。

常见问题

什么是KV-cache,为什么要量化它?
KV-cache(键值缓存)是transformer模型中存储前序token attention层中间结果的内存结构。将KV-cache量化(从FP16/BF16降至8位或更低精度)可显著减少VRAM消耗并支持更长的上下文窗口,但可能影响生成质量。
为什么FP8优于更激进的TurboQuant变体?
FP8同时量化存储和attention计算,而TurboQuant变体仅压缩存储,在计算时反量化回BF16。反量化开销随batch size增大导致10-68%的速度下降,而激进的3位变体则损失数学推理所需的精度。
在何种情况下值得使用4bit-nc?
4bit-nc在基准测试中仅损失1-4分,但节省3.4倍内存,适用于内存极度受限的场景——例如在较小GPU上服务超长上下文(256k token)而FP8无法装入时。