vLLM 在 NVIDIA DGX Spark 上的本地推理部署指南

vLLM 团队发布了一份实用指南，介绍如何在基于 GB10 芯片的 NVIDIA DGX Spark 系统上运行 vLLM。指南涵盖统一内存的行为、提供 NVFP4 模型 Nemotron-3-Super 的服务、Docker 部署、Prometheus 指标，以及在这款全新边缘硬件上的本地评估结果。

vLLM 团队于 2026 年 6 月 1 日发布了一份名为 “vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation” 的技术指南。文章描述了如何在基于 GB10 芯片的 NVIDIA DGX Spark 系统上运行 vLLM，重点关注在统一 CPU-GPU 内存架构下的本地推理。vLLM 是一个用于在生产环境中提供大语言模型服务的开源引擎。

统一内存如何工作？

DGX Spark 使用一个 128 GB 的共享内存池，CPU、GPU 和模型权重共同驻留其中。据指南所述，这种统一内存模型支持在本地提供更大的 NVFP4 模型服务——视架构和配置而定，可达约 2000 亿参数。NVFP4 是一种 4 比特的权重记录格式，可减小模型的内存占用，从而让更大的模型装入可用内存。

哪个模型用作示例？

指南指出，“具有约 10-15B 活跃参数的 100-130B MoE NVFP4 模型是不错的选择”，适用于该系统。MoE（mixture-of-experts）意味着每次查询只有一部分参数处于活跃状态，从而节省资源。具体示例是 Nemotron-3-Super-120B-A12B-NVFP4。

配置与 Docker 部署

对于运行 vllm serve，指南列出了关键标志：--gpu-memory-utilization 0.85（vLLM 可占用的统一内存比例）、--max-model-len 131072、--max-num-seqs 4（并发请求数上限）以及 --reasoning-parser nemotron_v3。官方 Docker 镜像 vllm/vllm-openai:cu130-nightly 在 http://localhost:8000/v1 上暴露 OpenAI 兼容的端点，并在 /metrics 上提供 Prometheus 指标。

本地评估结果如何？

在单台 Spark 上的评估显示，在不同场景下解码吞吐量为 22.7-23.7 tok/s，TTFT（首个 token 的生成时间）从短提示的 0.42 秒到长提示的 3.85 秒不等。指南指出，JIT 编译器的预热可解决冷启动的初始延迟（约 25 秒），而在单用户运行时 KV 缓存的利用率通常保持在 5% 以下。

这份指南为何有用

DGX Spark 属于新一波 NVIDIA 边缘硬件，而这样一份实用手册表明，认真的 NVFP4 模型可以在本地提供服务，无需庞大的数据中心基础设施。对于开发团队而言，这意味着在自有设备上通往生产级推理的更廉价、更注重隐私的途径。

常见问题

什么是 vLLM？

vLLM 是一个用于在生产环境中提供大语言模型服务的开源引擎。它优化吞吐量和内存管理，并提供 OpenAI 兼容的推理 API。

DGX Spark 上的统一内存是什么？

DGX Spark 拥有一个 128 GB 的共享内存池，CPU、GPU 和模型权重共同驻留其中。这使得无需独立的 GPU 内存即可在本地提供更大的 NVFP4 模型服务。

vLLM：在 NVIDIA DGX Spark / GB10 系统上运行