vLLM auf NVIDIA DGX Spark: Leitfaden für lokale Inferenz

Das vLLM-Team veröffentlichte einen praktischen Leitfaden zum Betrieb von vLLM auf dem NVIDIA DGX Spark System auf Basis des GB10-Chips. Der Leitfaden behandelt das Verhalten des Unified Memory, das Serving des NVFP4-Modells Nemotron-3-Super, Docker-Deployment, Prometheus-Metriken und Ergebnisse der lokalen Evaluierung auf der neuen Edge-Hardware.

Das vLLM-Team veröffentlichte am 1. Juni 2026 einen technischen Leitfaden mit dem Titel “vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation”. Der Text beschreibt, wie man vLLM auf dem NVIDIA DGX Spark System auf Basis des GB10-Chips betreibt, und konzentriert sich auf lokale Inferenz mit einer Architektur aus vereinheitlichtem CPU-GPU-Speicher. vLLM ist eine Open-Source-Engine für das produktive Serving großer Sprachmodelle.

Wie funktioniert Unified Memory?

Der DGX Spark nutzt einen gemeinsamen Speicherpool von 128 GB, in dem CPU, GPU und Modellgewichte zusammen leben. Dieses vereinheitlichte Speichermodell ermöglicht laut Leitfaden das lokale Serving größerer NVFP4-Modelle — bis zu rund 200 Milliarden Parameter, je nach Architektur und Konfiguration. NVFP4 ist ein 4-Bit-Format zur Gewichtsspeicherung, das den Speicherbedarf eines Modells reduziert, sodass größere Modelle in den verfügbaren Speicher passen.

Welches Modell dient als Beispiel?

Der Leitfaden hebt hervor, dass “100-130B MoE NVFP4-Modelle mit rund 10-15B aktiven Parametern eine gute Wahl” für dieses System sind. MoE (Mixture-of-Experts) bedeutet, dass nur ein Teil der Parameter pro Anfrage aktiv ist, was Ressourcen schont. Das konkrete Beispiel ist Nemotron-3-Super-120B-A12B-NVFP4.

Konfiguration und Docker-Deployment

Zum Ausführen von vllm serve nennt der Leitfaden wichtige Flags: --gpu-memory-utilization 0.85 (der Anteil des Unified Memory, den vLLM belegen darf), --max-model-len 131072, --max-num-seqs 4 (die Begrenzung gleichzeitiger Anfragen) sowie --reasoning-parser nemotron_v3. Das offizielle Docker-Image vllm/vllm-openai:cu130-nightly stellt OpenAI-kompatible Endpunkte unter http://localhost:8000/v1 bereit, mit Prometheus-Metriken unter /metrics.

Wie sehen die Ergebnisse der lokalen Evaluierung aus?

Die Evaluierung auf einem einzelnen Spark zeigte einen Decode-Durchsatz von 22,7-23,7 tok/s über verschiedene Szenarien hinweg, bei einem TTFT (Zeit bis zum ersten Token) im Bereich von 0,42 Sekunden für einen kurzen Prompt bis 3,85 Sekunden für einen langen Prompt. Der Leitfaden weist darauf hin, dass das Aufwärmen des JIT-Compilers die anfängliche Cold-Start-Latenz (etwa 25 Sekunden) auflöst, während die KV-Cache-Auslastung bei einem einzelnen Nutzer üblicherweise unter 5 % bleibt.

Warum der Leitfaden nützlich ist

Der DGX Spark gehört zu einer neuen Welle von NVIDIA-Edge-Hardware, und ein solches praktisches Handbuch zeigt, dass ernsthafte NVFP4-Modelle lokal betrieben werden können, ohne große Rechenzentrumsinfrastruktur. Für Entwicklungsteams bedeutet das einen günstigeren und privateren Weg zur produktiven Inferenz auf dem eigenen Gerät.

Häufig gestellte Fragen

Was ist vLLM?

vLLM ist eine Open-Source-Engine für das produktive Serving großer Sprachmodelle. Sie optimiert Durchsatz und Speicherverwaltung und bietet eine OpenAI-kompatible API für die Inferenz.

Was ist Unified Memory auf dem DGX Spark?

Der DGX Spark verfügt über einen gemeinsamen Speicherpool von 128 GB, in dem CPU, GPU und Modellgewichte zusammen leben. Das ermöglicht das lokale Serving größerer NVFP4-Modelle ohne separaten GPU-Speicher.

vLLM: Betrieb auf NVIDIA DGX Spark / GB10 Systemen