arXiv:2606.20474: UltraQuant通过4位精度将KV缓存延迟降低3.47倍
UltraQuant是一种针对多轮LLM智能体的KV缓存4位精度压缩技术,由AMD、UCLA和普渡大学联合研发。与FP8基准相比,该技术在高上下文压力的后期轮次中实现了3.47倍更快的P50 TTFT,并将输出吞吐量提升了1.63倍。
本文由人工智能基于一手来源生成。
UltraQuant:面向智能体LLM工作流的4位KV缓存压缩
来自AMD、UCLA和普渡大学的Inesh Chakrabarti及其同事发布了UltraQuant——一套将多轮LLM智能体的KV缓存(键值缓存)从FP16/FP8压缩至4位精度(FP4)的系统,显著降低了内存带宽压力。
非对称方法:FP8查询,FP4键和值
在长对话的智能体场景中,KV缓存是性能瓶颈,因为它随上下文长度线性增长。UltraQuant引入非对称处理机制:查询(query)保持FP8精度,而键(key)和值(value)通过Walsh-Hadamard旋转量化至FP4,从而重新分配异常值并减少量化误差。具备原生scaled-MFMA支持的AMD GPU可在硬件层面执行FP4矩阵乘法,无需软件仿真。
结果:后期轮次TTFT加速3.47倍
在启用scaled-MFMA的AMD硬件上:
- P50 TTFT(首个token生成时间)在高上下文压力的后期轮次中:比FP8基准快3.47倍
- 所有轮次的平均TTFT提升:2.3倍
- 输出吞吐量:每秒token数提升1.63倍
相比之下,标准FP8量化通常仅带来1.3–1.5倍的TTFT加速,同时还需要更高的内存容量。UltraQuant在多轮次智能体场景中尤为有效,因为后期轮次的KV缓存会成为主要瓶颈。
应用:多轮智能体场景
本研究面向聊天机器人、RAG流水线和代码智能体等生产场景,这些场景中上下文长度随每次交互轮次增长。作者强调,UltraQuant与GQA(分组查询注意力)和PagedAttention等技术互为补充,可以组合使用。
该论文于2026年6月18日提交,6月19日在arXiv发布(arXiv:2606.20474)。
常见问题
- 什么是KV缓存,它为何对LLM智能体至关重要?
- KV(键值)缓存存储Transformer中注意力计算的中间结果,避免在每个新token时重复计算——对于具有长上下文的多轮智能体对话而言至关重要。
- UltraQuant支持哪些GPU?是否需要特殊硬件?
- UltraQuant使用原生支持scaled-MFMA操作(原生FP4)的AMD GPU,可实现完整的硬件加速,无需软件仿真。
- UltraQuant如何对键和值进行差异化处理?
- 采用非对称方法:查询(query)保持FP8精度,而键(key)和值(value)通过Walsh-Hadamard旋转压缩至FP4,以重新分配异常值并减少量化误差。