vLLM × NVIDIA DGX Spark: ローカル推論ガイド

vLLM チームは、GB10 チップをベースとする NVIDIA DGX Spark システムで vLLM を実行するための実践的なガイドを公開した。このガイドは、統合メモリの挙動、NVFP4 モデル Nemotron-3-Super の提供、Docker デプロイ、Prometheus メトリクス、そして新しいエッジハードウェアでのローカル評価の結果を扱う。

vLLM チームは 2026年6月1日、「vLLM on the DGX Spark: Architecture, Configuration, and Local Evaluation」 と題された技術ガイドを公開した。本文は、GB10 チップをベースとする NVIDIA DGX Spark システムで vLLM を実行する方法を解説し、統合された CPU-GPU メモリアーキテクチャによるローカル推論に焦点を当てている。vLLM は、大規模言語モデルを本番環境で提供するためのオープンソースエンジンである。

統合メモリはどのように機能するのか？

DGX Spark は、CPU・GPU・モデルの重みが共存する 128 GB の共有メモリプールを使用する。このような統合メモリモデルは、ガイドによれば、より大きな NVFP4 モデル——アーキテクチャと構成に応じて、最大でおよそ 2000億パラメータまで——のローカル提供を可能にする。NVFP4 はモデルの重みを記録する 4 ビット形式であり、モデルのメモリフットプリントを削減するため、より大きなモデルが利用可能なメモリに収まる。

例としてどのモデルが使われているのか？

ガイドは、「約 10〜15B のアクティブパラメータを持つ 100〜130B の MoE NVFP4 モデルが」このシステムにとって「良い選択である」と強調している。MoE（mixture-of-experts）とは、クエリごとにパラメータの一部のみがアクティブになることを意味し、これによりリソースが節約される。具体的な例は Nemotron-3-Super-120B-A12B-NVFP4 である。

構成と Docker デプロイ

vllm serve を実行するために、ガイドは主要なフラグを挙げている。--gpu-memory-utilization 0.85（vLLM が占有してよい統合メモリの割合）、--max-model-len 131072、--max-num-seqs 4（同時リクエストの制限）、そして --reasoning-parser nemotron_v3 である。公式 Docker イメージ vllm/vllm-openai:cu130-nightly は、OpenAI 互換のエンドポイントを http://localhost:8000/v1 で公開し、Prometheus メトリクスを /metrics で提供する。

ローカル評価の結果はどうだったのか？

単一の Spark での評価では、さまざまなシナリオを通じてデコードスループットが 22.7〜23.7 tok/s を示し、TTFT（最初のトークンまでの時間）は短いプロンプトでの 0.42 秒から長いプロンプトでの 3.85 秒の範囲であった。ガイドは、JIT コンパイラのウォームアップがコールドスタートの初期レイテンシ（約 25 秒）を解決する一方で、単一ユーザーでの稼働時の KV-cache 使用率は通常 5 % 未満にとどまると指摘している。

このガイドがなぜ役立つのか

DGX Spark は新しい波の NVIDIA エッジハードウェアに属しており、このような実践的なマニュアルは、本格的な NVFP4 モデルが大規模なデータセンターインフラなしにローカルで提供できることを示している。開発チームにとってこれは、自前のデバイス上での本番推論への、より安価でよりプライバシーの高い道筋を意味する。

よくある質問

vLLM とは何か？

vLLM は、大規模言語モデルを本番環境で提供するためのオープンソースエンジンである。スループットとメモリ管理を最適化し、推論のための OpenAI 互換 API を提供する。

DGX Spark の統合メモリとは何か？

DGX Spark は、CPU・GPU・モデルの重みが共存する 128 GB の共有メモリプールを備えている。これにより、専用の GPU メモリなしでより大きな NVFP4 モデルをローカルで提供できる。

vLLM: NVIDIA DGX Spark / GB10 システムでの実行