Wie viel Speicher verbraucht DeepSeek V4 pro Sequenz?

Laut dem vLLM-Team beträgt der KV-Cache bei einer Million Token Kontext in bf16-Präzision etwa 9,62 GiB pro Sequenz. Durch den Einsatz von FP8- oder FP4-Quantisierung reduziert sich dieser Wert auf ungefähr die Hälfte.

Was ist neu in der vLLM-Implementierung der V4-Modelle?

vLLM hat drei zentrale Herausforderungen gelöst: Speicherverwaltung mit festen logischen Blöcken von 256 Positionen, die Integration komprimierter KV-Einträge in den Prefix-Cache sowie drei gezielte Kernel-Fusionen, die zusammen 5 bis 6 Prozent niedrigere Latenz liefern.

vLLM + DeepSeek V4: 8,7× kleinerer KV-Cache bei 1M Token

vLLM, eines der am weitesten verbreiteten Open-Source-Serving-Frameworks für große Sprachmodelle, veröffentlichte am 24. April 2026 vollständige Unterstützung für DeepSeek V4-Pro und V4-Flash. Die zentrale Aussage: ein KV-Cache, der 8,7× kleiner ist als der, den V3.2-Modelle bei gleicher Kontextlänge von einer Million Token benötigen würden.

Dies ist keine rein theoretische Behauptung — die vLLM-Implementierung verbraucht in einer Produktionsumgebung etwa 9,62 GiB pro Sequenz in bf16 bei vollem Millionen-Token-Kontext. Das ist der Unterschied zwischen „Wir brauchen einen H100-Cluster” und „Passt auf eine Standard-Produktionskarte.”

Wie funktioniert die KV-Cache-Optimierung?

DeepSeek V4 verwendet eine vierschichtige Strategie, die vLLM auf der Serving-Ebene unterstützen musste. Erstens liefern gemeinsam genutzte KV-Vektoren mit inverser RoPE-Anwendung eine doppelte Speichereinsparung. Zweitens erzielt die KV-Cache-Kompression durch gewichtete Token-Aggregation je nach Methode Einsparungen von 4× bis 128×.

Die dritte Schicht ist Sparse Attention, die die Berechnung auf die top-k komprimierten Token beschränkt, während die vierte — ein lokales Sliding Window — vollständige Vektoren für den jüngsten Kontext bewahrt, um die Präzision im unmittelbaren Fokus des Modells nicht zu verlieren.

In der Praxis bedeutet dies, dass das Modell gleichzeitig einen aggressiv komprimierten globalen Kontext und präzise lokale Aufmerksamkeit hält — ein wesentlicher Unterschied gegenüber klassischen GQA-Architekturen, bei denen der Speicher linear mit der Kontextlänge skaliert.

Was musste vLLM bei der Integration lösen?

Die Integration heterogener Kompressionsverhältnisse in eine einzige Serving-Engine ist nicht trivial. Das vLLM-Team hebt drei zentrale technische Herausforderungen hervor, die sie lösen mussten.

Die erste betrifft die Speicherverwaltung: Verschiedene Attention-Schichten haben unterschiedliche Kompressionsverhältnisse (4× für CSA, 128× für HCA), aber vLLM verwendet feste logische Blöcke von 256 Token-Positionen, um die Kompatibilität mit dem PagedAttention-Mechanismus zu erhalten. Dies bedeutet, dass die interne Zuordnung von logischen zu physikalischen Blöcken je nach Schicht variiert.

Die zweite Herausforderung betrifft den Zustand: Der Kompressor-Rest wird als Sliding-Window-KV behandelt, was die Integration mit dem bestehenden Prefix-Cache-Mechanismus und der disaggregierten Serving-Infrastruktur ermöglicht. Ohne diesen Trick würde Prefix-Caching — entscheidend für produktives LLM-Serving — über komprimierte Sequenzen hinweg nicht funktionieren.

Die dritte Herausforderung betrifft die Kernel-Effizienz: vLLM führte drei gezielte Fusionen und Multi-Stream-Parallelisierung von GPU-Operationen ein, die zusammen 5 bis 6 Prozent niedrigere Latenz pro Token im Vergleich zu einer naiven Implementierung liefern.

Warum ist das für den Produktionsbetrieb wichtig?

Bisher war das Serving von Modellen mit einer Million Token Kontext auf große Cloud-Anbieter mit benutzerdefinierter Hardware beschränkt. Der KV-Cache-Speicher skalierte linear mit dem Kontext, und bereits 128K Token erforderten mehrere GPUs pro Sequenz.

Mit DeepSeek V4 und der vLLM-Integration werden Standard-H100- oder H200-Konfigurationen für das Serving langer Kontexte ausreichend. Die Betriebskosten reduzieren sich laut vLLM-Aussagen um eine Größenordnung für Long-Context-Agentic-Workloads.

Für Entwicklungsteams, die Self-Hosting gegenüber der Abhängigkeit von Anthropic- oder OpenAI-APIs in Betracht ziehen — typischerweise aus DSGVO-Compliance-Gründen oder zur Datenkontrolle — ist diese Kombination ein konkretes Argument. Das V4-Flash-Modell mit 13 Milliarden aktiven Parametern in Kombination mit dem vLLM-Serving-Layer wird zu einer praktikablen Produktionsoption.

Die vollständige Integration ist in der neuesten vLLM-Version über pip install vllm verfügbar und unterstützt sowohl FP4- als auch FP8-Quantisierung je nach Hardware.

vLLM integriert DeepSeek V4 mit 8,7× kleinerem KV-Cache: eine Million Token Kontext auf Standard-GPU-Hardware

Wie funktioniert die KV-Cache-Optimierung?

Was musste vLLM bei der Integration lösen?

Warum ist das für den Produktionsbetrieb wichtig?

Quellen

Verwandte Nachrichten