NVIDIA: Software-Stack auf Blackwell senkt Token-Kosten für DeepSeek V4 in einem Monat um das Fünffache
NVIDIA erklärt, wie gestapelte Software-Optimierungen auf der Blackwell-Architektur — von NVFP4-Präzision bis spekulativem Decoding — bis zu 20× höheren Durchsatz und fünfmal niedrigere Token-Kosten für DeepSeek-V4-Modelle erzielen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
NVIDIA hat eine detaillierte Übersicht der Software-Optimierungen veröffentlicht, die auf der Blackwell-Architektur — konkret GB300-NVL72- und GB200-NVL72-Systemen — dramatisch niedrigere Inferenzkosten erzielen. Der zentrale Datenpunkt: Die Token-Kosten für DeepSeek V4 wurden innerhalb eines Monats um das Fünffache gesenkt, ausschließlich durch gestapelte Software-Verbesserungen, ohne das Modell selbst zu ändern.
Warum Software und nicht nur Hardware?
Blackwell brachte deutlich mehr rohe Rechenleistung gegenüber Hopper, aber die Hardware allein optimiert sich nicht automatisch. Der Schlüssel liegt darin, dass der Inferenz-Stack alle Systemebenen gleichzeitig nutzen muss — von der Rechengenauigkeit und Netzwerktopologie bis hin zur Art des Servings und der Token-Generierung. NVIDIA beschreibt den Stacking-Ansatz: Jede Technik bringt für sich allein eine Verbesserung, aber der eigentliche Effekt entsteht durch ihre Kombination.
Vier Techniken, die bis zu 20× Durchsatz aufbauen
Die Grundlage bilden vier Techniken, die zusammen bis zu 20× höheren Durchsatz pro GPU erreichen:
Disaggregated Serving trennt Prefill- und Decode-Phasen der Inferenz auf separate Hardware-Ressourcen. Die Prefill-Phase, die den Eingabe-Prompt verarbeitet, und die Decode-Phase, die Token generiert, haben unterschiedliche Hardware-Auslastungscharakteristika — durch ihre Trennung arbeitet jede Ressource im optimalen Modus.
Große Experten-Parallelisierung über NVLink ermöglicht MoE-Modellen wie DeepSeek V4, Experten über mehrere GPUs mit NVLink-Bandbreite zu verteilen, die den Kommunikations-Overhead minimiert. GB300-NVL72- und GB200-NVL72-Systeme haben besonders hohe NVLink-Bandbreite, die genau für solche Verteilungen ausgelegt ist.
NVFP4-Präzision reduziert den Speicher-Footprint und erhöht die arithmetische Intensität. Die Blackwell-Generation führt Hardware-Unterstützung für FP4 ein, was bedeutet, dass niedrige Präzision ohne Emulation erreicht wird — mit direktem Hardware-Durchsatz.
Multi-Token-Prediction und spekulatives Decoding generieren mehrere Token pro Modelldurchlauf, wodurch der feste Overhead jedes Decoding-Schritts amortisiert wird. DFlashs Implementierung des spekulativen Decodings erreicht bis zu 15× höheren Durchsatz im Vergleich zu klassischem Decoding.
Darüber hinaus betont NVIDIA Techniken zum Überlappen von Compute und Kommunikation sowie Kernel-Fusion als horizontale Optimierungen, die durch den gesamten Stack angewendet werden.
Reale Produktionsergebnisse
Ist das in der Produktion bestätigt?
Ja — NVIDIA nennt konkrete Ergebnisse von Partnern, die diese Optimierungen in der Produktion verwenden:
Baseten bedient DeepSeek V4 Pro auf Blackwell und verzeichnet bis zu 50 % mehr Token pro Sekunde mit TensorRT-LLM-Optimierungen im Vergleich zur vorherigen Stack-Generation.
Hippocratic AI, das 10 Millionen Patientengespräche verarbeitet, hat Optimierungen auf DigitalOcean-Infrastruktur implementiert und 30 % höheren Durchsatz bei einer Latenz unter einer halben Sekunde erreicht — was für Echtzeit-Sprachanwendungen kritisch ist.
DFlash spekulatives Decoding bringt bis zu 15× Durchsatzverbesserung für Szenarien, in denen die Verteilung der Ausgabe-Token vorhergesagt werden kann.
Cognition nutzt das NVIDIA Dynamo Inferenz-Framework für Reinforcement-Learning-Workloads, bei denen die Latenz für Lernschleifen kritisch ist.
Tools, die diesen Stack aufbauen
NVIDIA beschreibt das Ökosystem der Tools, die zusammen den Inferenz-Stack bilden: TensorRT-LLM als optimierenden Compiler für das Serving, NVIDIA Dynamo als Inferenz-Framework für komplexe Multi-System-Deployments sowie Integrationen mit populären Open-Source-Lösungen vLLM, SGLang und PyTorch mit nativer CUDA-Unterstützung.
Wichtig zu bemerken ist, dass alle genannten Partner die Optimierungen unabhängig voneinander implementiert haben — was darauf hindeutet, dass die Methodik nicht spezifisch für einen Nutzer ist, sondern über verschiedene Use-Cases reproduzierbar ist, vom Gesundheitswesen bis zur Softwareentwicklung.
Kontext: die Bedeutung der 5-fachen Kostensenkung
Token-Kosten bestimmen direkt die Wirtschaftlichkeit von LLM-Anwendungen. Fünfmal niedrigere Kosten innerhalb eines Monats bedeutet, dass Anwendungen, die zuvor marginal rentabel waren, klar profitabel werden, oder dass dasselbe Budget für fünfmal mehr Inferenz ausgegeben werden kann. Für Frontier-Modelle wie DeepSeek V4 mit Hunderten von Milliarden Parametern hat jeder Kostensenkungsfaktor proportional größere Auswirkungen auf die Gesamtbetriebskosten.
Häufig gestellte Fragen
- Um wie viel hat NVIDIA die Token-Kosten für DeepSeek V4 gesenkt?
- NVIDIA hat durch gestapelte Software-Optimierungen auf Blackwell-Hardware die Token-Kosten für DeepSeek V4 um bis zu das Fünffache innerhalb eines Monats gesenkt, ohne das Modell selbst zu ändern.
- Welche Schlüsseltechniken ermöglichen den bis zu 20× höheren Durchsatz?
- Die Kombination aus Disaggregated Serving, großer Experten-Parallelisierung über NVLink, NVFP4-Präzision, Multi-Token-Prediction, spekulativem Decoding und Überlappung von Compute und Kommunikation erzielt auf Blackwell bis zu 20× höheren Durchsatz pro GPU.
- Welche realen Ergebnisse zeigen Partner in Produktionssystemen?
- Baseten erzielt mit TensorRT-LLM bis zu 50 % mehr Token pro Sekunde, Hippocratic AI verzeichnet 30 % höheren Durchsatz mit Latenz unter einer halben Sekunde auf DigitalOcean, und DFlash-spekulatives Decoding liefert bis zu 15× höheren Durchsatz.
Verwandte Nachrichten
AMD: ROCm Low-Latency-GEMM-Kernel beschleunigen LLM-Inferenz bis zu 1,79× auf Instinct MI355X
AMD: Resource Manager verdrängt automatisch inaktive GPU-Workloads und gibt Ressourcen an den Cluster-Pool zurück
AMD: MXFP4/MXFP6 Mixed-Precision-Quantisierung auf MI355X — bis zu 29% mehr Durchsatz