🟢 🏥 实践应用 发布于: · 1 分钟阅读 ·

arXiv:2606.20474: UltraQuant通过4位精度将KV缓存延迟降低3.47倍

arXiv:2606.20474 ↗

编辑配图:UltraQuant通过4位精度将KV缓存延迟降低3.47倍

UltraQuant是一种针对多轮LLM智能体的KV缓存4位精度压缩技术,由AMD、UCLA和普渡大学联合研发。与FP8基准相比,该技术在高上下文压力的后期轮次中实现了3.47倍更快的P50 TTFT,并将输出吞吐量提升了1.63倍。

🤖

本文由人工智能基于一手来源生成。

UltraQuant:面向智能体LLM工作流的4位KV缓存压缩

来自AMD、UCLA和普渡大学的Inesh Chakrabarti及其同事发布了UltraQuant——一套将多轮LLM智能体的KV缓存(键值缓存)从FP16/FP8压缩至4位精度(FP4)的系统,显著降低了内存带宽压力。

非对称方法:FP8查询,FP4键和值

在长对话的智能体场景中,KV缓存是性能瓶颈,因为它随上下文长度线性增长。UltraQuant引入非对称处理机制:查询(query)保持FP8精度,而键(key)和值(value)通过Walsh-Hadamard旋转量化至FP4,从而重新分配异常值并减少量化误差。具备原生scaled-MFMA支持的AMD GPU可在硬件层面执行FP4矩阵乘法,无需软件仿真。

结果:后期轮次TTFT加速3.47倍

在启用scaled-MFMA的AMD硬件上:

  • P50 TTFT(首个token生成时间)在高上下文压力的后期轮次中:比FP8基准快3.47倍
  • 所有轮次的平均TTFT提升2.3倍
  • 输出吞吐量:每秒token数提升1.63倍

相比之下,标准FP8量化通常仅带来1.3–1.5倍的TTFT加速,同时还需要更高的内存容量。UltraQuant在多轮次智能体场景中尤为有效,因为后期轮次的KV缓存会成为主要瓶颈。

应用:多轮智能体场景

本研究面向聊天机器人RAG流水线和代码智能体等生产场景,这些场景中上下文长度随每次交互轮次增长。作者强调,UltraQuant与GQA(分组查询注意力)和PagedAttention等技术互为补充,可以组合使用。

该论文于2026年6月18日提交,6月19日在arXiv发布(arXiv:2606.20474)。

常见问题

什么是KV缓存,它为何对LLM智能体至关重要?
KV(键值)缓存存储Transformer中注意力计算的中间结果,避免在每个新token时重复计算——对于具有长上下文的多轮智能体对话而言至关重要。
UltraQuant支持哪些GPU?是否需要特殊硬件?
UltraQuant使用原生支持scaled-MFMA操作(原生FP4)的AMD GPU,可实现完整的硬件加速,无需软件仿真。
UltraQuant如何对键和值进行差异化处理?
采用非对称方法:查询(query)保持FP8精度,而键(key)和值(value)通过Walsh-Hadamard旋转压缩至FP4,以重新分配异常值并减少量化误差。