vLLM TurboQuant-Studie: FP8 superior für KV-Cache

TurboQuant ist eine aggressive KV-Cache-Quantisierungsmethode auf 3-4 Bit, die das Red Hat AI-Team systematisch mit dem FP8-Standard verglichen hat. Die Ergebnisse zeigen, dass FP8 Durchsatz und Genauigkeit beibehält, während 3bit-nc-Varianten bei anspruchsvollen Reasoning-Benchmarks wie AIME25 rund 20 Prozentpunkte verlieren.

Red Hat AI-Ingenieure — Eldar Kurtić, Michael Goin und Alexandre Marques — veröffentlichten am 11. Mai 2026 die erste umfassende Evaluierung der TurboQuant-Methode zur KV-Cache-Quantisierung im Kontext der vLLM Inference-Engine. Die Studie vergleicht den FP8-Standard mit aggressiveren 3-4-Bit-Varianten auf produktionsrelevanten Modellen und Benchmarks.

Was ist TurboQuant und wie unterscheidet es sich von FP8?

TurboQuant ist eine Methode, die nur den KV-Cache-Speicher auf 3-4 Bit komprimiert und die Werte anschließend für die Attention-Berechnung zurück auf BF16 dequantisiert. Im Gegensatz dazu quantisiert FP8 beide Teile — Speicher und Berechnung — und behält den Durchsatz in der gesamten Pipeline bei. Getestete Varianten umfassen k8v4 (8-Bit-Keys, 4-Bit-Values), 4bit-nc (mit Norm-Korrektur) und das aggressivste 3bit-nc.

Welche Speicherkapazitäts- und Durchsatzergebnisse zeigt die Studie?

Auf den Modellen Llama-3.3-70B, Qwen3-30B und MiniMax-M2.7 wurden folgende Einsparungen gemessen: FP8 liefert 2-fache Kapazität, k8v4 2,4-fache, 4bit-nc 3,4-fache. Aber der Durchsatz sinkt — TurboQuant-Varianten behalten 66-80 % der Baseline-Geschwindigkeit, mit Latenz-Verlangsamungen von 10-68 % je nach Batch-Größe. FP8 behält den vollen Baseline-Durchsatz.

Wie groß ist der Genauigkeitsverlust bei Reasoning-Aufgaben?

Bei den Benchmarks AIME25, GPQA:Diamond, MATH500 und LiveCodeBench-v6 verlieren die aggressivsten Varianten (3bit-nc, k3v4-nc) etwa 20 Prozentpunkte. Das weniger aggressive 4bit-nc verliert nur 1-4 Punkte. Die Long-Context-Evaluierung auf openai/mrcr (bis zu 256k Tokens) zeigte ein ähnliches Muster.

Was empfiehlt Red Hat AI für Produktions-Deployments?

Das Fazit ist eindeutig: „FP8 bleibt der beste Standard für KV-Cache-Quantisierung.” Es bietet 2-fache Kapazität ohne jeglichen Durchsatz- oder Genauigkeitsverlust. Aggressivere TurboQuant-Varianten sind nur in Szenarien mit extrem begrenztem Speicher sinnvoll, wo 4bit-nc 3,4-fache Einsparungen bei minimalen Genauigkeitskosten bietet.

Häufig gestellte Fragen

Was ist KV-Cache und warum wird er quantisiert?

KV-Cache (Key-Value-Cache) ist eine Speicherstruktur in Transformer-Modellen, die Zwischenergebnisse der Attention-Schicht für vorherige Tokens speichert. Die Quantisierung des KV-Cache (Reduzierung der Präzision von FP16/BF16 auf 8 oder weniger Bit) senkt den VRAM-Bedarf erheblich und ermöglicht längere Kontextfenster, kann aber die Generierungsqualität beeinflussen.

Warum übertrifft FP8 aggressivere TurboQuant-Varianten?

FP8 quantisiert sowohl Speicher als auch die Attention-Berechnung selbst, während TurboQuant-Varianten nur den Speicher komprimieren und für die Berechnung auf BF16 dequantisieren. Die Dequantisierungskosten skalieren mit der Batch-Größe und verursachen 10-68 % Verlangsamung; aggressive 3-Bit-Varianten verlieren die für mathematisches Schlussfolgern nötige Präzision.

Wann lohnt 4bit-nc trotz Genauigkeitsverlust?

Die 4bit-nc-Variante verliert nur 1-4 Punkte bei Benchmarks mit 3,4-facher Speicherersparnis — ein akzeptabler Kompromiss für Szenarien mit extremen Speicherbeschränkungen, etwa beim Serving sehr langer Kontexte (256k Tokens) auf kleineren GPUs, auf die FP8 nicht passt.

vLLM: TurboQuant-Studie zeigt FP8 bleibt superior für KV-Cache — 3bit-nc fällt ~20 pp

Was ist TurboQuant und wie unterscheidet es sich von FP8?

Welche Speicherkapazitäts- und Durchsatzergebnisse zeigt die Studie?

Wie groß ist der Genauigkeitsverlust bei Reasoning-Aufgaben?

Was empfiehlt Red Hat AI für Produktions-Deployments?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten