🟡 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

PyTorch/SGLang: DeepSeek-V4 Pro auf NVIDIA GB300 — 5× höherer Durchsatz bei gleichem Interaktivitätsniveau

Redaktionelle Illustration: Server-Rack mit NVIDIA Blackwell GPU-Karten und einem Diagramm, das das fünffache Durchsatzwachstum zeigt

Das PyTorch-Team und SGLang haben von April bis Juni 2026 den Inferenzdurchsatz des Modells DeepSeek-V4 Pro auf der NVIDIA GB300-Architektur von etwa 2.200 auf über 11.200 Token pro Sekunde pro GPU gesteigert — eine Fünffachverbesserung ohne Verlust an Interaktivität für den Endnutzer.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Optimierung der Auslieferung, kein neues Modell

Das PyTorch-Team hat in Zusammenarbeit mit dem Entwicklungsteam des SGLang-Frameworks einen detaillierten Bericht über die Optimierung der Auslieferung des Modells DeepSeek-V4 Pro auf der NVIDIA GB300-Architektur (Blackwell Ultra) veröffentlicht. Es handelt sich um eine ingenieurtechnische Leistung im Bereich der Inferenzinfrastruktur — DeepSeek-V4 Pro bleibt dasselbe Modell, aber die Art, wie es bereitgestellt wird, ist radikal verbessert worden.

SGLang (Structured Generation Language) ist ein offenes Framework für hochperformante Auslieferung großer Sprachmodelle, das Anfragenplanung, KV-Cache-Verwaltung und Kernel-Ausführung verwaltet.

Von 2.200 auf 11.200 Token pro Sekunde

Im April 2026 (Tag der Erstinbetriebnahme, sog. „Day-0”) erzielte das System etwa 2.200 Token pro Sekunde und GPU bei einem Interaktivitätsniveau von 50 Token pro Sekunde pro Nutzer. Bis Juni 2026 erreichte dieselbe Messgröße dank einer Reihe von Verbesserungen etwa 11.200 Token pro Sekunde und GPU — eine 5-fache Steigerung des Durchsatzes ohne Änderung des Interaktivitätsstandards.

Auf der aggregierten Blackwell Ultra-Konfiguration wurde ein Anstieg von 2,85–2,91× verzeichnet, mit Spitzenwerten über 6×.

Wichtigste technische Innovationen

Die Ergebnisse wurden durch eine Kombination fortgeschrittener Kernel und algorithmischer Verbesserungen erzielt:

  • MHP-Fusion — fasst mehrere Operationen zu einer GPU-Instruktion zusammen und reduziert die Speicherzugriffslatenz
  • KV Compression V2 — aggressivere Komprimierung des Schlüssel-Wert-Caches verringert den Druck auf die GPU-Speicherbandbreite
  • W4A4 MegaMoEQuantisierung von Gewichten und Aktivierungen auf 4 Bit für die Mixture-of-Experts-Architektur von DeepSeek-V4 Pro mit FP4-Genauigkeit auf GB300

MTP-Bugfix verdoppelte die Effizienz des spekulativen Dekodierers

Multi-Token Prediction (MTP) — eine Technik des spekulativen Dekodierers, bei der das Modell parallel mehrere Token im Voraus vorschlägt und diejenigen akzeptiert, die mit der endgültigen Ausgabe übereinstimmen — hat eine Schlüsselmetrik namens „speculative acceptance rate”. Eine höhere Akzeptanzrate bedeutet weniger verworfene Spekulationen und eine höhere tatsächliche Generierungsgeschwindigkeit.

Nach der Behebung eines Fehlers, der NaN-Werte verursachte, wurde die Akzeptanzrate von 0,57 auf 0,70 verbessert, was allein erheblich zur Gesamtverbesserung von 5× beigetragen hat. Zum Vergleich: Ohne die MTP-Optimierung wäre das System selbst mit denselben Kerneln deutlich unter den Juni-Werten geblieben.

Praktische Bedeutung

Für Cloud-KI-Dienstleister bedeutet die fünffache Durchsatzsteigerung auf derselben Hardware eine direkte Kostensenkung pro generiertem Token oder ermöglicht fünfmal mehr gleichzeitige Nutzer ohne zusätzliche Investitionen in die GPU-Infrastruktur.

Häufig gestellte Fragen

Was ist Durchsatz (Throughput), und warum ist er für KI-Inferenz wichtig?
Durchsatz (Throughput) misst, wie viele Token ein Modell pro Sekunde und GPU generieren kann — ein höherer Durchsatz bedeutet, dass dieselbe Hardware mehr gleichzeitige Nutzer bei niedrigeren Kosten bedienen kann.
Was ist Multi-Token Prediction, und wie hilft es?
MTP (Multi-Token Prediction) ist eine Technik des spekulativen Dekodierers, bei der das Modell in einem Schritt mehrere Token im Voraus vorhersagt; durch die Verbesserung der Akzeptanzrate von 0,57 auf 0,70 (nach dem NaN-Bugfix) wird die Generierung weiter beschleunigt.