🟡 🤖 モデル 公開日: · 2 分で読めます ·

PyTorch/SGLang: NVIDIA GB300上のDeepSeek-V4 Pro——同じインタラクティビティで5倍のスループット

編集用イラスト:NVIDIA Blackwell GPUカードが搭載されたサーバーラックと5倍スループット向上を示すグラフ

PyTorchチームとSGLangは2026年4月から6月にかけて、NVIDIA GB300アーキテクチャ上でのDeepSeek-V4 Proモデルの提供スループットをGPUあたり約2,200トークン/秒から11,200トークン/秒超に増加させました——エンドユーザーのインタラクティビティを損なうことなく5倍の改善です。

🤖

この記事はAIにより一次情報源から生成されました。

最適化されたサービング、新しいモデルではない

PyTorchチームはSGLangフレームワークの開発チームと協力して、NVIDIA GB300アーキテクチャ(Blackwell Ultra)上でのDeepSeek-V4 Proモデルのサービング最適化に関する詳細なレポートを発表しました。これは推論インフラカテゴリの工学的成果です——DeepSeek-V4 Proは同じモデルですが、それを提供する方法が根本的に改善されました。

SGLang(Structured Generation Language)は、リクエストスケジューリング、KVキャッシュ管理、カーネル実行を管理する大規模言語モデルの高性能サービングのためのオープンフレームワークです。

2,200から11,200トークン/秒へ

2026年4月(いわゆる「day-0」、ゼロ日目の起動)、システムはユーザーあたり1秒あたり50トークンのインタラクティビティレベルでGPUあたり約2,200トークン/秒を達成していました。2026年6月までに、一連の改善により、同じ指標はGPUあたり約11,200トークン/秒に達しました——インタラクティビティ基準を変えることなく5倍のスループット向上です。

Blackwell Ultra集約設定では2.85〜2.91倍の向上が記録され、ピーク値は6倍を超えました。

主要な技術的革新

この結果は、いくつかの高度なカーネルとアルゴリズム的改善の組み合わせによって達成されました:

  • MHP融合(MHC fusion) — 複数の操作を1つのGPU命令に統合し、メモリアクセスレイテンシを削減
  • KV Compression V2 — より積極的なキーバリューキャッシュ圧縮がGPUメモリ帯域幅の負荷を軽減
  • W4A4 MegaMoE — DeepSeek-V4 ProのMixture-of-Expertsアーキテクチャの重みと活性化を4ビットに量子化し、GB300でFP4精度を使用

MTPバグ修正が投機的デコードの効率を倍増

マルチトークン予測(MTP)——モデルが複数のトークンを並列で先読みし、最終出力と一致するものを承認する投機的デコード技術——は「投機的承認率」と呼ばれる重要な指標を持ちます。承認率が高いほど、却下された推測が少なくなり、実際の生成速度が高くなります。

NaN値を引き起こしていたバグを修正した後、承認率は0.57から0.70に改善されました。これだけで5倍の全体的な改善に大きく貢献しました。比較として、MTP最適化なしでは、同じカーネルを使用しても6月の値を大幅に下回ったままでした。

実践的な意義

クラウドAIサービスプロバイダーにとって、同じハードウェアでスループットが5倍向上することは、生成されたトークンあたりのコストを直接削減するか、GPU インフラへの追加投資なしに5倍の同時ユーザーを可能にします。

よくある質問

スループットとは何ですか?AIサービング(提供)においてなぜ重要なのですか?
スループット(処理能力)はモデルが1秒間にGPUごとに生成できるトークン数を測定します——スループットが高いほど、同じハードウェアがより低いコストでより多くのユーザーを同時にサービス提供できます。
マルチトークン予測とはどのようなもので、どのように役立つのですか?
MTP(マルチトークン予測)は、モデルが1回のステップで複数のトークンを先読みする投機的デコード技術です。承認率が0.57から0.70に改善されること(NaNバグ修正後)で生成がさらに加速します。