NVIDIAはDeepSeek V4のトークンコストをどの程度削減したか？

NVIDIAはBlackwellハードウェアでの積み重ねたソフトウェア最適化を通じて、モデル自体を変更することなく1カ月以内にDeepSeek V4のトークンコストを最大5倍削減した。

20倍のスループット向上を実現する主要技術は何か？

分散サービング（disaggregated serving）、NVLink経由の大規模エキスパート並列化、NVFP4精度、マルチトークン予測、投機的デコーディング、コンピュートと通信のオーバーラップの組み合わせにより、BlackwellのGPUあたり最大20倍のスループットを達成する。

本番システムでのパートナーの実際の結果はどうか？

BasetenはTensorRT-LLMで最大50%多いトークン/秒を達成し、Hippocratic AIはDigitalOcean上で0.5秒未満のレイテンシーで30%のスループット向上を実現し、DFlashの投機的デコーディングは最大15倍のスループット向上をもたらす。

NVIDIA Blackwell：DeepSeek V4のトークンコストが5倍削減

NVIDIAはBlackwellアーキテクチャでのソフトウェア最適化の積み重ね——NVFP4精度から投機的デコーディングまで——が最大20倍のスループット向上とDeepSeek V4モデルの5倍低いトークンコストを達成する方法を説明する。

NVIDIAはBlackwellアーキテクチャ——具体的にはGB300 NVL72とGB200 NVL72システム——で劇的に低い推論コストを達成するソフトウェア最適化の詳細な概要を発表した。中心的な数字：DeepSeek V4のトークンコストがモデル自体を変更することなく、純粋にソフトウェアの積み重ねた改善によって1カ月以内に5倍削減された。

なぜハードウェアだけでなくソフトウェアが重要なのか？

BlackwellはHopperと比べて大幅に高いraw計算能力をもたらしたが、ハードウェア自体は自動的に最適化されない。重要なのは、推論スタックがシステムのすべてのレベルを同時に活用しなければならないことだ——計算精度とネットワークトポロジーからサービング方法とトークン生成まで。NVIDIAは最適化の積み重ね（stacking）アプローチを説明する：各手法が単独で改善をもたらすが、真の効果はその組み合わせから生まれる。

最大20倍のスループットを構築する四つの技術

これらを組み合わせることでGPUあたり最大20倍のスループットを達成する四つの技術がある：

**分散サービング（Disaggregated serving）**はプリフィルとデコードの推論フェーズを別々のハードウェアリソースに分離する。入力プロンプトを処理するプリフィルフェーズとトークンを生成するデコードフェーズはハードウェア使用率の特性が異なる——分離することで各リソースが最適なモードで動作する。

NVLink経由の大規模エキスパート並列化により、DeepSeek V4のようなMoEモデルが通信オーバーヘッドを最小化するNVLink帯域幅を使用して複数のGPUにエキスパートを分散できる。GB300 NVL72とGB200 NVL72システムは、まさにこのような分散のために設計された特に高いNVLink帯域幅を持つ。

NVFP4精度はメモリフットプリントを削減し算術強度を高める。Blackwellの世代はFP4のハードウェアサポートを導入しており、低精度がエミュレーションなしに——直接のハードウェアスループットで達成される。

マルチトークン予測と投機的デコーディングは各モデルパスで複数のトークンを生成し、各デコードステップの固定オーバーヘッドを分散する。DFlashの投機的デコーディング実装は古典的なデコーディングと比較して最大15倍のスループット向上を達成する。

さらにNVIDIAは、スタック全体で適用される水平最適化としてコンピュートと通信のオーバーラップ、カーネルフュージョン技術を強調する。

本番からの実際の結果

これは本番で確認されているか？

はい——NVIDIAはこれらの最適化を本番で使用するパートナーの具体的な結果を示している：

BasetenはBlackwellでDeepSeek V4 Proをサービングし、TensorRT-LLMの最適化により以前のスタックの世代と比較して最大50%多いトークン/秒を記録している。

Hippocratic AIは1,000万件の患者コールを処理しており、DigitalOceanインフラで最適化を実装し、0.5秒未満のレイテンシーで30%のスループット向上を達成した——これはリアルタイム音声アプリケーションにとって重要だ。

DFlashの投機的デコーディングは出力トークンの分布が予測できるシナリオで最大15倍のスループット改善をもたらす。

Cognitionはレイテンシーが学習ループに重要な強化学習ワークロードでNVIDIA Dynamo推論フレームワークを使用している。

このスタックを構成するツール

NVIDIAは推論スタックを構成するツールのエコシステムを説明する：サービング向け最適化コンパイラとしてのTensorRT-LLM、複雑なマルチシステム展開向け推論フレームワークとしてのNVIDIA Dynamo、そしてネイティブCUDAサポートを持つ人気オープンソースソリューションvLLM、SGLang、PyTorchとの統合だ。

挙げられたパートナーがすべて独立して最適化を実装していることは注目に値する——これは方法論が特定のユーザーに固有のものではなく、ヘルスケアからソフトウェア開発まで異なるユースケースで再現可能であることを示唆している。

文脈：5倍のコスト削減の重要性

トークンコストはLLMアプリケーションの経済性を直接決定する。1カ月以内に5倍低いコストは、以前はわずかに採算が取れていたアプリケーションが明確に収益性が高くなることを意味し、または同じ予算で5倍多い推論に使えることを意味する。DeepSeek V4のような数千億パラメータを持つフロンティア規模のモデルでは、コスト削減の各要因が総運用コストへの比例した影響を持つ。

NVIDIA：BlackwellのソフトウェアスタックがDeepSeek V4のトークンコストを1カ月で5倍削減