🟢 🔧 硬件 发布于: · 2 分钟阅读 ·

NVIDIA:Blackwell 软件堆栈在一个月内将 DeepSeek V4 的 token 成本降低五倍

编辑配图:NVIDIA Blackwell 推理软件堆栈将每 token 成本降低五倍

NVIDIA 详解了在 Blackwell 架构上叠加的软件优化——从 NVFP4 精度到推测性解码——如何在 DeepSeek V4 模型上实现高达 20 倍的吞吐量提升和五倍的 token 成本降低。

🤖

本文由人工智能基于一手来源生成。

NVIDIA 发布了对在 Blackwell 架构——具体为 GB300 NVL72 和 GB200 NVL72 系统——上实现大幅降低推理成本的软件优化的详细概述。核心数据:DeepSeek V4 的 token 成本在一个月内降低了五倍,完全通过叠加的软件改进实现,而无需更改模型本身。

为何重要的是软件而非仅仅是硬件?

Blackwell 相较于 Hopper 带来了显著更高的原始计算能力,但硬件本身并不会自动优化。关键在于推理堆栈必须同时利用系统的各个层级——从计算精度和网络拓扑到服务方式和 token 生成。NVIDIA 描述了一种叠加优化的方法:每种技术本身都能带来改进,但真正的效果来自它们的组合。

构建高达 20 倍吞吐量的四项技术

四项核心技术组合实现了GPU 高达 20 倍的吞吐量提升

分离式服务(Disaggregated serving) 将推理的 prefill 和 decode 阶段分配到独立的硬件资源上。处理输入提示的 prefill 阶段与生成 token 的 decode 阶段对硬件利用率有不同的特性——将它们分离可让每种资源在最优模式下运行。

通过 NVLink 的大规模专家并行化 使 DeepSeek V4 等 MoE 模型能够通过最小化通信开销的 NVLink 带宽在多个 GPU 上分配专家。GB300 NVL72 和 GB200 NVL72 系统拥有专门为此类分配方式设计的超高 NVLink 带宽。

NVFP4 精度 降低了内存占用并提高了算术强度。Blackwell 一代引入了对 FP4 的硬件支持,这意味着低精度无需模拟即可实现——提供直接的硬件吞吐量。

多 token 预测推测性解码 每次模型前向传播生成更多 token,从而分摊每个解码步骤的固定开销。DFlash 推测性解码实现相比经典解码高达 15 倍的吞吐量提升

此外,NVIDIA 还强调了计算与通信重叠以及内核融合作为贯穿整个堆栈的横向优化技术。

来自生产环境的实际成果

这在生产中得到了验证吗?

是的——NVIDIA 引用了在生产中使用这些优化的合作伙伴的具体成果:

Baseten 在 Blackwell 上为 DeepSeek V4 Pro 提供服务,与上一代堆栈相比,TensorRT-LLM 优化后每秒 token 数量提升多达 50%

Hippocratic AI 处理 1,000 万次患者通话,在 DigitalOcean 基础设施上实现了优化,获得 30% 的吞吐量提升且延迟低于半秒——这对实时语音应用至关重要。

DFlash 推测性解码对于可预测输出 token 分布的场景带来了高达 15 倍的吞吐量改进

Cognition 使用 NVIDIA Dynamo 推理框架处理强化学习工作负载,其中延迟对学习循环至关重要。

构成该堆栈的工具

NVIDIA 描述了共同构成推理堆栈的工具生态系统:TensorRT-LLM 作为用于服务的优化编译器,NVIDIA Dynamo 作为用于复杂多系统部署的推理框架,以及与流行开源解决方案 vLLMSGLang 和支持原生 CUDA 的 PyTorch 的集成。

值得注意的是,所有上述合作伙伴均独立实现了这些优化——表明该方法论并非特定用户独有,而是可在从医疗保健到软件开发的不同用例中复现。

背景:5 倍成本降低的重要意义

Token 成本直接决定了 LLM 应用的经济学。一个月内成本降低五倍意味着此前仅处于盈利边缘的应用变得明显有利可图,或者相同的预算可以支撑五倍的推理量。对于拥有数千亿参数的 DeepSeek V4 等前沿规模模型,每项成本降低因素都对整体运营成本产生成比例的更大影响。

常见问题

NVIDIA 将 DeepSeek V4 的 token 成本降低了多少?
NVIDIA 通过 Blackwell 硬件上叠加的软件优化,在一个月内将 DeepSeek V4 的 token 成本降低了五倍,而无需更改模型本身。
实现 20 倍吞吐量提升的关键技术有哪些?
分离式服务(disaggregated serving)、通过 NVLink 的大规模专家并行化、NVFP4 精度、多 token 预测、推测性解码,以及计算与通信的重叠,在 Blackwell 上组合实现了每 GPU 高达 20 倍的吞吐量提升。
合作伙伴在生产系统上取得了哪些实际成果?
Baseten 使用 TensorRT-LLM 实现了每秒多达 50% 的 token 提升;Hippocratic AI 在 DigitalOcean 上实现了 30% 的吞吐量提升且延迟低于半秒;DFlash 推测性解码带来了高达 15 倍的吞吐量提升。