vLLM: NVIDIA DGX Spark / GB10 시스템에서 실행하기
vLLM 팀이 GB10 칩 기반의 NVIDIA DGX Spark 시스템에서 vLLM을 실행하기 위한 실용 가이드를 공개했다. 가이드는 통합 메모리의 동작, NVFP4 모델 Nemotron-3-Super 서빙, Docker 배포, Prometheus 메트릭, 그리고 새로운 엣지 하드웨어에서의 로컬 평가 결과를 다룬다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
vLLM 팀은 2026년 6월 1일 *『vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation』*이라는 제목의 기술 가이드를 공개했다. 이 글은 GB10 칩 기반의 NVIDIA DGX Spark 시스템에서 vLLM을 실행하는 방법을 설명하며, 통합 CPU-GPU 메모리 아키텍처를 활용한 로컬 추론에 초점을 맞춘다. vLLM은 대규모 언어 모델의 프로덕션 서빙을 위한 오픈소스 엔진이다.
통합 메모리는 어떻게 작동하는가?
DGX Spark는 CPU, GPU, 모델 가중치가 함께 존재하는 128GB의 공유 메모리 풀을 사용한다. 가이드에 따르면, 이러한 통합 메모리 모델은 더 큰 NVFP4 모델 — 아키텍처와 구성에 따라 약 2,000억 파라미터까지 — 의 로컬 서빙을 가능하게 한다. NVFP4는 모델의 메모리 점유를 줄이는 4비트 가중치 표현 포맷으로, 더 큰 모델이 가용 메모리에 들어가도록 한다.
예시로 사용된 모델은?
가이드는 “약 10-15B의 활성 파라미터를 가진 100-130B MoE NVFP4 모델이 좋은 선택”이라고 강조한다. MoE(mixture-of-experts)는 요청당 일부 파라미터만 활성화되어 리소스를 절약한다는 의미다. 구체적인 예시는 Nemotron-3-Super-120B-A12B-NVFP4다.
구성 및 Docker 배포
vllm serve 실행을 위해 가이드는 핵심 플래그를 제시한다: --gpu-memory-utilization 0.85(vLLM이 점유할 수 있는 통합 메모리 비율), --max-model-len 131072, --max-num-seqs 4(동시 요청 제한), 그리고 --reasoning-parser nemotron_v3. 공식 Docker 이미지 vllm/vllm-openai:cu130-nightly는 http://localhost:8000/v1에 OpenAI 호환 엔드포인트를, /metrics에 Prometheus 메트릭을 노출한다.
로컬 평가 결과는 어떤가?
단일 Spark에서의 평가는 다양한 시나리오에서 22.7-23.7 tok/s의 디코딩 처리량을 보였으며, TTFT(첫 토큰까지의 시간)는 짧은 프롬프트의 경우 0.42초에서 긴 프롬프트의 경우 3.85초 범위였다. 가이드는 JIT 컴파일러 워밍업이 콜드 스타트의 초기 지연(약 25초)을 해결하며, 단일 사용자 동작 시 KV 캐시 활용률은 보통 5% 미만으로 유지된다고 언급한다.
이 가이드가 유용한 이유
DGX Spark는 새로운 물결의 NVIDIA 엣지 하드웨어에 속하며, 이러한 실용 매뉴얼은 대규모 데이터센터 인프라 없이도 진지한 NVFP4 모델을 로컬에서 서빙할 수 있음을 보여준다. 개발 팀에게 이는 자체 기기에서 프로덕션 추론으로 가는 더 저렴하고 더 사적인 경로를 의미한다.
자주 묻는 질문
- vLLM이란 무엇인가요?
- vLLM은 대규모 언어 모델의 프로덕션 서빙을 위한 오픈소스 엔진입니다. 처리량과 메모리 관리를 최적화하며 추론을 위한 OpenAI 호환 API를 제공합니다.
- DGX Spark의 통합 메모리란 무엇인가요?
- DGX Spark는 CPU, GPU, 모델 가중치가 함께 존재하는 128GB의 공유 메모리 풀을 갖추고 있습니다. 이를 통해 별도의 GPU 메모리 없이도 더 큰 NVFP4 모델을 로컬에서 서빙할 수 있습니다.