PyTorch/SGLang: NVIDIA GB300上のDeepSeek-V4 Pro——同じインタラクティビティで5倍のスループット
PyTorchチームとSGLangは2026年4月から6月にかけて、NVIDIA GB300アーキテクチャ上でのDeepSeek-V4 Proモデルの提供スループットをGPUあたり約2,200トークン/秒から11,200トークン/秒超に増加させました——エンドユーザーのインタラクティビティを損なうことなく5倍の改善です。
この記事はAIにより一次情報源から生成されました。
最適化されたサービング、新しいモデルではない
PyTorchチームはSGLangフレームワークの開発チームと協力して、NVIDIA GB300アーキテクチャ(Blackwell Ultra)上でのDeepSeek-V4 Proモデルのサービング最適化に関する詳細なレポートを発表しました。これは推論インフラカテゴリの工学的成果です——DeepSeek-V4 Proは同じモデルですが、それを提供する方法が根本的に改善されました。
SGLang(Structured Generation Language)は、リクエストスケジューリング、KVキャッシュ管理、カーネル実行を管理する大規模言語モデルの高性能サービングのためのオープンフレームワークです。
2,200から11,200トークン/秒へ
2026年4月(いわゆる「day-0」、ゼロ日目の起動)、システムはユーザーあたり1秒あたり50トークンのインタラクティビティレベルでGPUあたり約2,200トークン/秒を達成していました。2026年6月までに、一連の改善により、同じ指標はGPUあたり約11,200トークン/秒に達しました——インタラクティビティ基準を変えることなく5倍のスループット向上です。
Blackwell Ultra集約設定では2.85〜2.91倍の向上が記録され、ピーク値は6倍を超えました。
主要な技術的革新
この結果は、いくつかの高度なカーネルとアルゴリズム的改善の組み合わせによって達成されました:
- MHP融合(MHC fusion) — 複数の操作を1つのGPU命令に統合し、メモリアクセスレイテンシを削減
- KV Compression V2 — より積極的なキーバリューキャッシュ圧縮がGPUメモリ帯域幅の負荷を軽減
- W4A4 MegaMoE — DeepSeek-V4 ProのMixture-of-Expertsアーキテクチャの重みと活性化を4ビットに量子化し、GB300でFP4精度を使用
MTPバグ修正が投機的デコードの効率を倍増
マルチトークン予測(MTP)——モデルが複数のトークンを並列で先読みし、最終出力と一致するものを承認する投機的デコード技術——は「投機的承認率」と呼ばれる重要な指標を持ちます。承認率が高いほど、却下された推測が少なくなり、実際の生成速度が高くなります。
NaN値を引き起こしていたバグを修正した後、承認率は0.57から0.70に改善されました。これだけで5倍の全体的な改善に大きく貢献しました。比較として、MTP最適化なしでは、同じカーネルを使用しても6月の値を大幅に下回ったままでした。
実践的な意義
クラウドAIサービスプロバイダーにとって、同じハードウェアでスループットが5倍向上することは、生成されたトークンあたりのコストを直接削減するか、GPU インフラへの追加投資なしに5倍の同時ユーザーを可能にします。
よくある質問
- スループットとは何ですか?AIサービング(提供)においてなぜ重要なのですか?
- スループット(処理能力)はモデルが1秒間にGPUごとに生成できるトークン数を測定します——スループットが高いほど、同じハードウェアがより低いコストでより多くのユーザーを同時にサービス提供できます。
- マルチトークン予測とはどのようなもので、どのように役立つのですか?
- MTP(マルチトークン予測)は、モデルが1回のステップで複数のトークンを先読みする投機的デコード技術です。承認率が0.57から0.70に改善されること(NaNバグ修正後)で生成がさらに加速します。