UltraQuant: 4-Bit-KV-Cache, 3,47× schnellerer TTFT

UltraQuant ist eine Technik zur Komprimierung des KV-Caches auf 4-Bit-Präzision für mehrstufige LLM-Agenten. Entwickelt von AMD, UCLA und Purdue, erreicht das System eine 3,47-fach schnellere P50-TTFT in späten Runden bei hohem Kontextdruck sowie einen 1,63-fach höheren Ausgabedurchsatz im Vergleich zur FP8-Basislinie.

UltraQuant: 4-Bit-KV-Cache-Komprimierung für agentische LLM-Workflows

Inesh Chakrabarti und Kollegen von AMD, UCLA und der Purdue University haben UltraQuant veröffentlicht — ein System, das den KV-Cache (Key-Value-Cache) mehrstufiger LLM-Agenten von FP16/FP8 auf 4-Bit-Präzision (FP4) komprimiert und damit den Druck auf die Speicherbandbreite erheblich verringert.

Asymmetrischer Ansatz: FP8-Anfragen, FP4-Schlüssel und -Werte

Der KV-Cache ist ein Flaschenhals in langen agentischen Gesprächen, da er linear mit der Kontextlänge wächst. UltraQuant führt eine asymmetrische Behandlung ein: Anfragen (Queries) verbleiben in FP8, während Schlüssel und Werte mittels Walsh-Hadamard-Rotation auf FP4 quantisiert werden, die Ausreißer umverteilt und den Quantisierungsfehler reduziert. AMD-GPUs mit nativer Scaled-MFMA-Unterstützung führen FP4-Matrixmultiplikationen hardwareseitig durch, ohne Software-Emulation.

Ergebnisse: 3,47-fach schnellerer TTFT in späten Runden

Auf AMD-Hardware mit aktiviertem Scaled-MFMA:

P50-TTFT (Time-to-First-Token) in späten Runden bei hohem Kontextdruck: 3,47-fach schneller gegenüber der FP8-Basislinie
Durchschnittliche TTFT-Verbesserung über alle Runden: 2,3-fach
Ausgabedurchsatz: 1,63-fach mehr Token pro Sekunde

Zum Vergleich: Standardmäßige FP8-Quantisierung liefert typischerweise eine 1,3–1,5-fache TTFT-Beschleunigung bei gleichzeitig höherem Speicherbedarf. UltraQuant ist besonders effektiv bei KI-Agenten mit vielen Gesprächsrunden (Multi-Turn), bei denen der KV-Cache später Runden zum dominanten Engpass wird.

Anwendung: Mehrstufige agentische Szenarien

Die Arbeit richtet sich auf Produktionsszenarien wie Chatbots, RAG-Pipelines und Code-Agenten, bei denen die Kontextlänge mit jeder Gesprächsrunde wächst. Die Autoren betonen, dass UltraQuant komplementär zu Techniken wie GQA (Grouped-Query Attention) und PagedAttention ist, mit denen es kombiniert werden kann.

Die Arbeit wurde am 18. Juni 2026 eingereicht und am 19. Juni auf arXiv veröffentlicht (arXiv:2606.20474).

Häufig gestellte Fragen

Was ist ein KV-Cache und warum ist er für LLM-Agenten wichtig?

Der KV-Cache (Key-Value-Cache) speichert Zwischenergebnisse der Aufmerksamkeitsberechnung in Transformern, um eine erneute Berechnung bei jedem neuen Token zu vermeiden — entscheidend für mehrstufige agentische Gespräche mit langem Kontext.

Auf welchen GPUs läuft UltraQuant, und ist spezielle Hardware erforderlich?

UltraQuant nutzt AMD-GPUs mit nativer Unterstützung für Scaled-MFMA-Operationen (nativ FP4), was eine vollständige Hardware-Beschleunigung ohne Software-Emulation ermöglicht.

Wie behandelt UltraQuant Schlüssel und Werte unterschiedlich?

Es wird ein asymmetrischer Ansatz angewendet: Anfragen verbleiben in FP8-Präzision, während Schlüssel und Werte mittels Walsh-Hadamard-Rotation auf FP4 komprimiert werden, was Ausreißer umverteilt und den Quantisierungsfehler reduziert.

arXiv:2606.20474: UltraQuant reduziert KV-Cache-Latenz um das 3,47-Fache mit 4-Bit-Präzision

UltraQuant: 4-Bit-KV-Cache-Komprimierung für agentische LLM-Workflows

Asymmetrischer Ansatz: FP8-Anfragen, FP4-Schlüssel und -Werte

Ergebnisse: 3,47-fach schnellerer TTFT in späten Runden

Anwendung: Mehrstufige agentische Szenarien

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten