PyTorch/SGLang:DeepSeek-V4 Pro在NVIDIA GB300上——相同交互性下吞吐量提升5倍
PyTorch团队与SGLang在2026年4月至6月期间,将NVIDIA GB300架构上DeepSeek-V4 Pro模型的服务吞吐量从约2,200提升至超过11,200令牌/秒/GPU——在不牺牲终端用户交互性的前提下实现了5倍提升。
本文由人工智能基于一手来源生成。
服务优化,而非新模型
PyTorch团队与SGLang框架开发团队联合发布了DeepSeek-V4 Pro模型在NVIDIA GB300架构(Blackwell Ultra)上的服务优化详细报告。这是一项推理基础设施领域的工程成就——DeepSeek-V4 Pro本身未变,但服务方式得到了根本性改进。
SGLang(结构化生成语言)是一个开源高性能大语言模型服务框架,负责请求调度、KV缓存管理和内核执行。
从2,200到11,200令牌/秒
2026年4月(即「Day-0」首次启动时),系统在每用户50令牌/秒的交互性水平下,每GPU每秒处理约2,200令牌。到2026年6月,通过一系列改进,同一指标达到约11,200令牌/秒/GPU——吞吐量提升5倍,交互性标准保持不变。
在聚合Blackwell Ultra配置上记录了2.85至2.91倍的提升,峰值超过6倍。
关键技术创新
成果通过多项先进内核和算法改进的组合实现:
- MHP融合(MHC fusion)——将多个操作合并为单条GPU指令,减少内存访问延迟
- KV压缩V2——更激进的键值缓存压缩,降低GPU内存带宽压力
- W4A4 MegaMoE——DeepSeek-V4 Pro混合专家架构的权重和激活4位量化,在GB300上使用FP4精度
MTP错误修复使推测解码效率翻倍
多令牌预测(MTP)——模型并行提前提议多个令牌并接受与最终输出匹配的令牌的推测解码技术——有一个关键指标称为「推测接受率」。接受率越高,被丢弃的推测越少,实际生成速度越快。
修复导致NaN值的错误后,接受率从0.57提升至0.70,仅此一项就对5倍总体提升做出了重要贡献。相比之下,若没有MTP优化,即便使用相同的内核,系统到6月份的表现也将远低于目前的水平。
实际意义
对于云AI服务提供商而言,在相同硬件上实现5倍吞吐量增长,直接降低了每生成令牌的成本,或在无需额外GPU投资的情况下支持5倍的并发用户规模。
常见问题
- 什么是吞吐量,为何它对AI服务重要?
- 吞吐量(propusnost)衡量模型每秒每GPU可生成的令牌数——吞吐量越高,意味着同等硬件可同时服务更多用户,成本更低。
- 什么是多令牌预测,它有何帮助?
- MTP(多令牌预测)是一种推测解码技术,模型在一步中提前预测多个令牌;将接受率从0.57提升至0.70(修复NaN错误后),进一步加速了生成过程。