vLLM na NVIDIA DGX Spark: vodič za lokalni inference

vLLM tim objavio je praktičan vodič za pokretanje vLLM-a na NVIDIA DGX Spark sustavu temeljenom na GB10 čipu. Vodič pokriva ponašanje unificirane memorije, posluživanje NVFP4 modela Nemotron-3-Super, Docker deployment, Prometheus metrike i rezultate lokalne evaluacije na novom edge-hardveru.

vLLM tim objavio je 1. lipnja 2026. tehnički vodič pod nazivom “vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation”. Tekst opisuje kako pokrenuti vLLM na NVIDIA DGX Spark sustavu temeljenom na GB10 čipu te se fokusira na lokalni inference uz arhitekturu unificirane CPU-GPU memorije. vLLM je open-source engine za produkcijsko posluživanje velikih jezičnih modela.

Kako radi unificirana memorija?

DGX Spark koristi dijeljeni memorijski bazen od 128 GB u kojem zajedno žive CPU, GPU i težine modela. Takav unificirani model memorije omogućuje, prema vodiču, lokalno posluživanje većih NVFP4 modela — do otprilike 200 milijardi parametara, ovisno o arhitekturi i konfiguraciji. NVFP4 je 4-bitni format zapisa težina koji smanjuje memorijski otisak modela, pa veći modeli stanu u dostupnu memoriju.

Koji model služi kao primjer?

Vodič ističe da su “100-130B MoE NVFP4 modeli s otprilike 10-15B aktivnih parametara dobar izbor” za ovaj sustav. MoE (mixture-of-experts) znači da je samo dio parametara aktivan po upitu, što čuva resurse. Konkretan primjer je Nemotron-3-Super-120B-A12B-NVFP4.

Konfiguracija i Docker deployment

Za pokretanje vllm serve vodič navodi ključne zastavice: --gpu-memory-utilization 0.85 (udio unificirane memorije koju vLLM smije zauzeti), --max-model-len 131072, --max-num-seqs 4 (ograničenje istovremenih zahtjeva) te --reasoning-parser nemotron_v3. Službeni Docker image vllm/vllm-openai:cu130-nightly izlaže OpenAI-kompatibilne endpointe na http://localhost:8000/v1, uz Prometheus metrike na /metrics.

Kakvi su rezultati lokalne evaluacije?

Evaluacija na jednom Sparku pokazala je propusnost dekodiranja od 22,7-23,7 tok/s kroz različite scenarije, uz TTFT (vrijeme do prvog tokena) u rasponu od 0,42 sekunde za kratak prompt do 3,85 sekundi za dugačak prompt. Vodič napominje da zagrijavanje JIT kompajlera rješava početnu latenciju hladnog starta (oko 25 sekundi), dok iskorištenost KV-cachea pri radu jednog korisnika obično ostaje ispod 5 %.

Zašto je vodič koristan

DGX Spark spada u novi val NVIDIA edge-hardvera, a ovakav praktičan priručnik pokazuje da se ozbiljni NVFP4 modeli mogu posluživati lokalno, bez velike data-centarske infrastrukture. Za razvojne timove to znači jeftiniji i privatniji put do produkcijskog inferenca na vlastitom uređaju.

Česta pitanja

Što je vLLM?

vLLM je open-source engine za produkcijsko posluživanje velikih jezičnih modela. Optimizira propusnost i upravljanje memorijom te nudi OpenAI-kompatibilan API za inference.

Što je unificirana memorija na DGX Sparku?

DGX Spark ima dijeljeni memorijski bazen od 128 GB u kojem zajedno žive CPU, GPU i težine modela. To omogućuje lokalno posluživanje većih NVFP4 modela bez zasebne GPU memorije.

vLLM: pokretanje na NVIDIA DGX Spark / GB10 sustavima