arXiv:2606.20474: UltraQuant reduziert KV-Cache-Latenz um das 3,47-Fache mit 4-Bit-Präzision
UltraQuant ist eine Technik zur Komprimierung des KV-Caches auf 4-Bit-Präzision für mehrstufige LLM-Agenten. Entwickelt von AMD, UCLA und Purdue, erreicht das System eine 3,47-fach schnellere P50-TTFT in späten Runden bei hohem Kontextdruck sowie einen 1,63-fach höheren Ausgabedurchsatz im Vergleich zur FP8-Basislinie.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
UltraQuant: 4-Bit-KV-Cache-Komprimierung für agentische LLM-Workflows
Inesh Chakrabarti und Kollegen von AMD, UCLA und der Purdue University haben UltraQuant veröffentlicht — ein System, das den KV-Cache (Key-Value-Cache) mehrstufiger LLM-Agenten von FP16/FP8 auf 4-Bit-Präzision (FP4) komprimiert und damit den Druck auf die Speicherbandbreite erheblich verringert.
Asymmetrischer Ansatz: FP8-Anfragen, FP4-Schlüssel und -Werte
Der KV-Cache ist ein Flaschenhals in langen agentischen Gesprächen, da er linear mit der Kontextlänge wächst. UltraQuant führt eine asymmetrische Behandlung ein: Anfragen (Queries) verbleiben in FP8, während Schlüssel und Werte mittels Walsh-Hadamard-Rotation auf FP4 quantisiert werden, die Ausreißer umverteilt und den Quantisierungsfehler reduziert. AMD-GPUs mit nativer Scaled-MFMA-Unterstützung führen FP4-Matrixmultiplikationen hardwareseitig durch, ohne Software-Emulation.
Ergebnisse: 3,47-fach schnellerer TTFT in späten Runden
Auf AMD-Hardware mit aktiviertem Scaled-MFMA:
- P50-TTFT (Time-to-First-Token) in späten Runden bei hohem Kontextdruck: 3,47-fach schneller gegenüber der FP8-Basislinie
- Durchschnittliche TTFT-Verbesserung über alle Runden: 2,3-fach
- Ausgabedurchsatz: 1,63-fach mehr Token pro Sekunde
Zum Vergleich: Standardmäßige FP8-Quantisierung liefert typischerweise eine 1,3–1,5-fache TTFT-Beschleunigung bei gleichzeitig höherem Speicherbedarf. UltraQuant ist besonders effektiv bei KI-Agenten mit vielen Gesprächsrunden (Multi-Turn), bei denen der KV-Cache später Runden zum dominanten Engpass wird.
Anwendung: Mehrstufige agentische Szenarien
Die Arbeit richtet sich auf Produktionsszenarien wie Chatbots, RAG-Pipelines und Code-Agenten, bei denen die Kontextlänge mit jeder Gesprächsrunde wächst. Die Autoren betonen, dass UltraQuant komplementär zu Techniken wie GQA (Grouped-Query Attention) und PagedAttention ist, mit denen es kombiniert werden kann.
Die Arbeit wurde am 18. Juni 2026 eingereicht und am 19. Juni auf arXiv veröffentlicht (arXiv:2606.20474).
Häufig gestellte Fragen
- Was ist ein KV-Cache und warum ist er für LLM-Agenten wichtig?
- Der KV-Cache (Key-Value-Cache) speichert Zwischenergebnisse der Aufmerksamkeitsberechnung in Transformern, um eine erneute Berechnung bei jedem neuen Token zu vermeiden — entscheidend für mehrstufige agentische Gespräche mit langem Kontext.
- Auf welchen GPUs läuft UltraQuant, und ist spezielle Hardware erforderlich?
- UltraQuant nutzt AMD-GPUs mit nativer Unterstützung für Scaled-MFMA-Operationen (nativ FP4), was eine vollständige Hardware-Beschleunigung ohne Software-Emulation ermöglicht.
- Wie behandelt UltraQuant Schlüssel und Werte unterschiedlich?
- Es wird ein asymmetrischer Ansatz angewendet: Anfragen verbleiben in FP8-Präzision, während Schlüssel und Werte mittels Walsh-Hadamard-Rotation auf FP4 komprimiert werden, was Ausreißer umverteilt und den Quantisierungsfehler reduziert.
Quellen
Verwandte Nachrichten
Anthropic: Claude Code v2.1.183 blockiert destruktive Git- und Infrastrukturbefehle im Auto-Modus
AWS: SageMaker erhält über 100 detaillierte Inference-Metriken und Insights-Dashboard auf CloudWatch
GitHub: Copilot stellt Opus 4.6 (fast) am 29. Juni ein, fügt AGENTS.md zu Code Review hinzu und ai_credits_used-Feld zur API