DeepSeek-V4 Pro：GB300で5倍のスループット

PyTorchチームとSGLangは2026年4月から6月にかけて、NVIDIA GB300アーキテクチャ上でのDeepSeek-V4 Proモデルの提供スループットをGPUあたり約2,200トークン/秒から11,200トークン/秒超に増加させました——エンドユーザーのインタラクティビティを損なうことなく5倍の改善です。

最適化されたサービング、新しいモデルではない

PyTorchチームはSGLangフレームワークの開発チームと協力して、NVIDIA GB300アーキテクチャ（Blackwell Ultra）上でのDeepSeek-V4 Proモデルのサービング最適化に関する詳細なレポートを発表しました。これは推論インフラカテゴリの工学的成果です——DeepSeek-V4 Proは同じモデルですが、それを提供する方法が根本的に改善されました。

SGLang（Structured Generation Language）は、リクエストスケジューリング、KVキャッシュ管理、カーネル実行を管理する大規模言語モデルの高性能サービングのためのオープンフレームワークです。

2,200から11,200トークン/秒へ

2026年4月（いわゆる「day-0」、ゼロ日目の起動）、システムはユーザーあたり1秒あたり50トークンのインタラクティビティレベルでGPUあたり約2,200トークン/秒を達成していました。2026年6月までに、一連の改善により、同じ指標はGPUあたり約11,200トークン/秒に達しました——インタラクティビティ基準を変えることなく5倍のスループット向上です。

Blackwell Ultra集約設定では2.85〜2.91倍の向上が記録され、ピーク値は6倍を超えました。

主要な技術的革新

この結果は、いくつかの高度なカーネルとアルゴリズム的改善の組み合わせによって達成されました：

MHP融合（MHC fusion） — 複数の操作を1つのGPU命令に統合し、メモリアクセスレイテンシを削減
KV Compression V2 — より積極的なキーバリューキャッシュ圧縮がGPUメモリ帯域幅の負荷を軽減
W4A4 MegaMoE — DeepSeek-V4 ProのMixture-of-Expertsアーキテクチャの重みと活性化を4ビットに量子化し、GB300でFP4精度を使用

MTPバグ修正が投機的デコードの効率を倍増

マルチトークン予測（MTP）——モデルが複数のトークンを並列で先読みし、最終出力と一致するものを承認する投機的デコード技術——は「投機的承認率」と呼ばれる重要な指標を持ちます。承認率が高いほど、却下された推測が少なくなり、実際の生成速度が高くなります。

NaN値を引き起こしていたバグを修正した後、承認率は0.57から0.70に改善されました。これだけで5倍の全体的な改善に大きく貢献しました。比較として、MTP最適化なしでは、同じカーネルを使用しても6月の値を大幅に下回ったままでした。

実践的な意義

クラウドAIサービスプロバイダーにとって、同じハードウェアでスループットが5倍向上することは、生成されたトークンあたりのコストを直接削減するか、GPU インフラへの追加投資なしに5倍の同時ユーザーを可能にします。

よくある質問

スループットとは何ですか？AIサービング（提供）においてなぜ重要なのですか？

スループット（処理能力）はモデルが1秒間にGPUごとに生成できるトークン数を測定します——スループットが高いほど、同じハードウェアがより低いコストでより多くのユーザーを同時にサービス提供できます。

マルチトークン予測とはどのようなもので、どのように役立つのですか？

MTP（マルチトークン予測）は、モデルが1回のステップで複数のトークンを先読みする投機的デコード技術です。承認率が0.57から0.70に改善されること（NaNバグ修正後）で生成がさらに加速します。

PyTorch/SGLang: NVIDIA GB300上のDeepSeek-V4 Pro——同じインタラクティビティで5倍のスループット