🟡 📦 开源 发布于: · 2 分钟阅读 ·

vLLM:在 NVIDIA DGX Spark / GB10 系统上运行

编辑插图:在 NVIDIA DGX Spark / GB10 系统上运行

vLLM 团队发布了一份实用指南,介绍如何在基于 GB10 芯片的 NVIDIA DGX Spark 系统上运行 vLLM。指南涵盖统一内存的行为、提供 NVFP4 模型 Nemotron-3-Super 的服务、Docker 部署、Prometheus 指标,以及在这款全新边缘硬件上的本地评估结果。

🤖

本文由人工智能基于一手来源生成。

vLLM 团队于 2026 年 6 月 1 日发布了一份名为 “vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation” 的技术指南。文章描述了如何在基于 GB10 芯片的 NVIDIA DGX Spark 系统上运行 vLLM,重点关注在统一 CPU-GPU 内存架构下的本地推理。vLLM 是一个用于在生产环境中提供大语言模型服务的开源引擎。

统一内存如何工作?

DGX Spark 使用一个 128 GB 的共享内存池,CPU、GPU 和模型权重共同驻留其中。据指南所述,这种统一内存模型支持在本地提供更大的 NVFP4 模型服务——视架构和配置而定,可达约 2000 亿参数。NVFP4 是一种 4 比特的权重记录格式,可减小模型的内存占用,从而让更大的模型装入可用内存。

哪个模型用作示例?

指南指出,“具有约 10-15B 活跃参数的 100-130B MoE NVFP4 模型是不错的选择”,适用于该系统。MoE(mixture-of-experts)意味着每次查询只有一部分参数处于活跃状态,从而节省资源。具体示例是 Nemotron-3-Super-120B-A12B-NVFP4

配置与 Docker 部署

对于运行 vllm serve,指南列出了关键标志:--gpu-memory-utilization 0.85(vLLM 可占用的统一内存比例)、--max-model-len 131072--max-num-seqs 4(并发请求数上限)以及 --reasoning-parser nemotron_v3。官方 Docker 镜像 vllm/vllm-openai:cu130-nightlyhttp://localhost:8000/v1 上暴露 OpenAI 兼容的端点,并在 /metrics 上提供 Prometheus 指标。

本地评估结果如何?

在单台 Spark 上的评估显示,在不同场景下解码吞吐量为 22.7-23.7 tok/s,TTFT(首个 token 的生成时间)从短提示的 0.42 秒到长提示的 3.85 秒不等。指南指出,JIT 编译器的预热可解决冷启动的初始延迟(约 25 秒),而在单用户运行时 KV 缓存的利用率通常保持在 5% 以下。

这份指南为何有用

DGX Spark 属于新一波 NVIDIA 边缘硬件,而这样一份实用手册表明,认真的 NVFP4 模型可以在本地提供服务,无需庞大的数据中心基础设施。对于开发团队而言,这意味着在自有设备上通往生产级推理的更廉价、更注重隐私的途径。

常见问题

什么是 vLLM?
vLLM 是一个用于在生产环境中提供大语言模型服务的开源引擎。它优化吞吐量和内存管理,并提供 OpenAI 兼容的推理 API。
DGX Spark 上的统一内存是什么?
DGX Spark 拥有一个 128 GB 的共享内存池,CPU、GPU 和模型权重共同驻留其中。这使得无需独立的 GPU 内存即可在本地提供更大的 NVFP4 模型服务。