vLLM: pokretanje na NVIDIA DGX Spark / GB10 sustavima
vLLM tim objavio je praktičan vodič za pokretanje vLLM-a na NVIDIA DGX Spark sustavu temeljenom na GB10 čipu. Vodič pokriva ponašanje unificirane memorije, posluživanje NVFP4 modela Nemotron-3-Super, Docker deployment, Prometheus metrike i rezultate lokalne evaluacije na novom edge-hardveru.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
vLLM tim objavio je 1. lipnja 2026. tehnički vodič pod nazivom “vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation”. Tekst opisuje kako pokrenuti vLLM na NVIDIA DGX Spark sustavu temeljenom na GB10 čipu te se fokusira na lokalni inference uz arhitekturu unificirane CPU-GPU memorije. vLLM je open-source engine za produkcijsko posluživanje velikih jezičnih modela.
Kako radi unificirana memorija?
DGX Spark koristi dijeljeni memorijski bazen od 128 GB u kojem zajedno žive CPU, GPU i težine modela. Takav unificirani model memorije omogućuje, prema vodiču, lokalno posluživanje većih NVFP4 modela — do otprilike 200 milijardi parametara, ovisno o arhitekturi i konfiguraciji. NVFP4 je 4-bitni format zapisa težina koji smanjuje memorijski otisak modela, pa veći modeli stanu u dostupnu memoriju.
Koji model služi kao primjer?
Vodič ističe da su “100-130B MoE NVFP4 modeli s otprilike 10-15B aktivnih parametara dobar izbor” za ovaj sustav. MoE (mixture-of-experts) znači da je samo dio parametara aktivan po upitu, što čuva resurse. Konkretan primjer je Nemotron-3-Super-120B-A12B-NVFP4.
Konfiguracija i Docker deployment
Za pokretanje vllm serve vodič navodi ključne zastavice: --gpu-memory-utilization 0.85 (udio unificirane memorije koju vLLM smije zauzeti), --max-model-len 131072, --max-num-seqs 4 (ograničenje istovremenih zahtjeva) te --reasoning-parser nemotron_v3. Službeni Docker image vllm/vllm-openai:cu130-nightly izlaže OpenAI-kompatibilne endpointe na http://localhost:8000/v1, uz Prometheus metrike na /metrics.
Kakvi su rezultati lokalne evaluacije?
Evaluacija na jednom Sparku pokazala je propusnost dekodiranja od 22,7-23,7 tok/s kroz različite scenarije, uz TTFT (vrijeme do prvog tokena) u rasponu od 0,42 sekunde za kratak prompt do 3,85 sekundi za dugačak prompt. Vodič napominje da zagrijavanje JIT kompajlera rješava početnu latenciju hladnog starta (oko 25 sekundi), dok iskorištenost KV-cachea pri radu jednog korisnika obično ostaje ispod 5 %.
Zašto je vodič koristan
DGX Spark spada u novi val NVIDIA edge-hardvera, a ovakav praktičan priručnik pokazuje da se ozbiljni NVFP4 modeli mogu posluživati lokalno, bez velike data-centarske infrastrukture. Za razvojne timove to znači jeftiniji i privatniji put do produkcijskog inferenca na vlastitom uređaju.
Česta pitanja
- Što je vLLM?
- vLLM je open-source engine za produkcijsko posluživanje velikih jezičnih modela. Optimizira propusnost i upravljanje memorijom te nudi OpenAI-kompatibilan API za inference.
- Što je unificirana memorija na DGX Sparku?
- DGX Spark ima dijeljeni memorijski bazen od 128 GB u kojem zajedno žive CPU, GPU i težine modela. To omogućuje lokalno posluživanje većih NVFP4 modela bez zasebne GPU memorije.
Povezane vijesti
vLLM: Semantic Router Fusion spaja panel modela uz suca koji sintetizira jedan odgovor
CNCF: Oracleova donacija od 3 milijuna dolara u OCI kreditima ubrzava Arm64 podršku u 12+ projekata
GitHub: Otvoreni Multilingual Repositories Dataset s 80 milijuna redaka i 40 milijuna repozitorija