UltraQuant：4位KV缓存，TTFT加速3.47倍

UltraQuant是一种针对多轮LLM智能体的KV缓存4位精度压缩技术，由AMD、UCLA和普渡大学联合研发。与FP8基准相比，该技术在高上下文压力的后期轮次中实现了3.47倍更快的P50 TTFT，并将输出吞吐量提升了1.63倍。

UltraQuant：面向智能体LLM工作流的4位KV缓存压缩

来自AMD、UCLA和普渡大学的Inesh Chakrabarti及其同事发布了UltraQuant——一套将多轮LLM智能体的KV缓存（键值缓存）从FP16/FP8压缩至4位精度（FP4）的系统，显著降低了内存带宽压力。

非对称方法：FP8查询，FP4键和值

在长对话的智能体场景中，KV缓存是性能瓶颈，因为它随上下文长度线性增长。UltraQuant引入非对称处理机制：查询（query）保持FP8精度，而键（key）和值（value）通过Walsh-Hadamard旋转量化至FP4，从而重新分配异常值并减少量化误差。具备原生scaled-MFMA支持的AMD GPU可在硬件层面执行FP4矩阵乘法，无需软件仿真。

结果：后期轮次TTFT加速3.47倍

在启用scaled-MFMA的AMD硬件上：

P50 TTFT（首个token生成时间）在高上下文压力的后期轮次中：比FP8基准快3.47倍
所有轮次的平均TTFT提升：2.3倍
输出吞吐量：每秒token数提升1.63倍

相比之下，标准FP8量化通常仅带来1.3–1.5倍的TTFT加速，同时还需要更高的内存容量。UltraQuant在多轮次智能体场景中尤为有效，因为后期轮次的KV缓存会成为主要瓶颈。

应用：多轮智能体场景

本研究面向聊天机器人、RAG流水线和代码智能体等生产场景，这些场景中上下文长度随每次交互轮次增长。作者强调，UltraQuant与GQA（分组查询注意力）和PagedAttention等技术互为补充，可以组合使用。

该论文于2026年6月18日提交，6月19日在arXiv发布（arXiv:2606.20474）。

常见问题

什么是KV缓存，它为何对LLM智能体至关重要？

KV（键值）缓存存储Transformer中注意力计算的中间结果，避免在每个新token时重复计算——对于具有长上下文的多轮智能体对话而言至关重要。

UltraQuant支持哪些GPU？是否需要特殊硬件？

UltraQuant使用原生支持scaled-MFMA操作（原生FP4）的AMD GPU，可实现完整的硬件加速，无需软件仿真。

UltraQuant如何对键和值进行差异化处理？

采用非对称方法：查询（query）保持FP8精度，而键（key）和值（value）通过Walsh-Hadamard旋转压缩至FP4，以重新分配异常值并减少量化误差。

arXiv:2606.20474: UltraQuant通过4位精度将KV缓存延迟降低3.47倍

UltraQuant：面向智能体LLM工作流的4位KV缓存压缩

非对称方法：FP8查询，FP4键和值

结果：后期轮次TTFT加速3.47倍

应用：多轮智能体场景

常见问题

来源

相关新闻