vLLM integriert DeepSeek V4 mit 8,7× kleinerem KV-Cache: eine Million Token Kontext auf Standard-GPU-Hardware
Warum es wichtig ist
vLLM veröffentlichte am selben Tag wie DeepSeek die vollständige Integration von V4-Pro und V4-Flash, mit einem 8,7× kleineren KV-Cache gegenüber V3.2 bei einer Million Token Kontext. Die Kombination aus Sparse Attention und aggressiver Kompression ermöglicht Serving auf Standard-GPU-Hardware.
vLLM, eines der am weitesten verbreiteten Open-Source-Serving-Frameworks für große Sprachmodelle, veröffentlichte am 24. April 2026 vollständige Unterstützung für DeepSeek V4-Pro und V4-Flash. Die zentrale Aussage: ein KV-Cache, der 8,7× kleiner ist als der, den V3.2-Modelle bei gleicher Kontextlänge von einer Million Token benötigen würden.
Dies ist keine rein theoretische Behauptung — die vLLM-Implementierung verbraucht in einer Produktionsumgebung etwa 9,62 GiB pro Sequenz in bf16 bei vollem Millionen-Token-Kontext. Das ist der Unterschied zwischen „Wir brauchen einen H100-Cluster” und „Passt auf eine Standard-Produktionskarte.”
Wie funktioniert die KV-Cache-Optimierung?
DeepSeek V4 verwendet eine vierschichtige Strategie, die vLLM auf der Serving-Ebene unterstützen musste. Erstens liefern gemeinsam genutzte KV-Vektoren mit inverser RoPE-Anwendung eine doppelte Speichereinsparung. Zweitens erzielt die KV-Cache-Kompression durch gewichtete Token-Aggregation je nach Methode Einsparungen von 4× bis 128×.
Die dritte Schicht ist Sparse Attention, die die Berechnung auf die top-k komprimierten Token beschränkt, während die vierte — ein lokales Sliding Window — vollständige Vektoren für den jüngsten Kontext bewahrt, um die Präzision im unmittelbaren Fokus des Modells nicht zu verlieren.
In der Praxis bedeutet dies, dass das Modell gleichzeitig einen aggressiv komprimierten globalen Kontext und präzise lokale Aufmerksamkeit hält — ein wesentlicher Unterschied gegenüber klassischen GQA-Architekturen, bei denen der Speicher linear mit der Kontextlänge skaliert.
Was musste vLLM bei der Integration lösen?
Die Integration heterogener Kompressionsverhältnisse in eine einzige Serving-Engine ist nicht trivial. Das vLLM-Team hebt drei zentrale technische Herausforderungen hervor, die sie lösen mussten.
Die erste betrifft die Speicherverwaltung: Verschiedene Attention-Schichten haben unterschiedliche Kompressionsverhältnisse (4× für CSA, 128× für HCA), aber vLLM verwendet feste logische Blöcke von 256 Token-Positionen, um die Kompatibilität mit dem PagedAttention-Mechanismus zu erhalten. Dies bedeutet, dass die interne Zuordnung von logischen zu physikalischen Blöcken je nach Schicht variiert.
Die zweite Herausforderung betrifft den Zustand: Der Kompressor-Rest wird als Sliding-Window-KV behandelt, was die Integration mit dem bestehenden Prefix-Cache-Mechanismus und der disaggregierten Serving-Infrastruktur ermöglicht. Ohne diesen Trick würde Prefix-Caching — entscheidend für produktives LLM-Serving — über komprimierte Sequenzen hinweg nicht funktionieren.
Die dritte Herausforderung betrifft die Kernel-Effizienz: vLLM führte drei gezielte Fusionen und Multi-Stream-Parallelisierung von GPU-Operationen ein, die zusammen 5 bis 6 Prozent niedrigere Latenz pro Token im Vergleich zu einer naiven Implementierung liefern.
Warum ist das für den Produktionsbetrieb wichtig?
Bisher war das Serving von Modellen mit einer Million Token Kontext auf große Cloud-Anbieter mit benutzerdefinierter Hardware beschränkt. Der KV-Cache-Speicher skalierte linear mit dem Kontext, und bereits 128K Token erforderten mehrere GPUs pro Sequenz.
Mit DeepSeek V4 und der vLLM-Integration werden Standard-H100- oder H200-Konfigurationen für das Serving langer Kontexte ausreichend. Die Betriebskosten reduzieren sich laut vLLM-Aussagen um eine Größenordnung für Long-Context-Agentic-Workloads.
Für Entwicklungsteams, die Self-Hosting gegenüber der Abhängigkeit von Anthropic- oder OpenAI-APIs in Betracht ziehen — typischerweise aus DSGVO-Compliance-Gründen oder zur Datenkontrolle — ist diese Kombination ein konkretes Argument. Das V4-Flash-Modell mit 13 Milliarden aktiven Parametern in Kombination mit dem vLLM-Serving-Layer wird zu einer praktikablen Produktionsoption.
Die vollständige Integration ist in der neuesten vLLM-Version über pip install vllm verfügbar und unterstützt sowohl FP4- als auch FP8-Quantisierung je nach Hardware.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Allen AI: OlmoEarth-Embeddings ermöglichen Landschaftssegmentierung mit nur 60 Pixeln und einem F1-Wert von 0,84
Google DeepMind Decoupled DiLoCo: 20-fach geringere Netzwerkbandbreite für KI-Training über geografisch verteilte Rechenzentren
Apple auf der ICLR 2026 stellt ParaRNN vor: Paralleles Training nichtlinearer RNNs mit 665-fachem Speedup