vLLM:开源推理引擎登顶 Artificial Analysis 排行榜榜首
vLLM 是一款开源推理引擎,凭借激进的核融合(每层从 33 降至 10 次启动,1.28× 加速)、自定义 EAGLE3 草稿模型推测解码以及线性注意力路径优化,在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 三个前沿模型上夺得 Artificial Analysis 排行榜首位。
本文由人工智能基于一手来源生成。
开源推理引擎 vLLM 凭借针对性优化,在 Artificial Analysis 排行榜三个前沿模型上夺得榜首。开发团队确认 vLLM 现在在 DeepSeek V3.2、MiniMax-M2.5 和 Qwen 3.5 397B 上领先,这是三种不同模型的三种不同优化方案的成果。
DeepSeek V3.2:激进的核融合
在 DeepSeek V3.2 上,vLLM 实现了 每秒 230 个令牌的输出吞吐量——正如公告所述,「超过大多数推理提供商报告数据的 4 倍以上」。关键在于激进的核融合,将归一化、旋转嵌入和量化操作合并在一起。每层 GPU 核启动次数从约 33 次减少至仅 10 次,消除了小批大小下的启动开销,在批大小为 1 时实现 1.28× 加速。
MiniMax-M2.5:自定义 EAGLE3 草稿模型
对于 MiniMax-M2.5,vLLM 使用自定义 EAGLE3 推测解码实现了并发数 1 下 326 令牌/秒。EAGLE3 是一种技术,较小的「草稿」模型提前预测若干令牌,大模型随后在一次前向传播中验证。vLLM 工程师通过 TorchSpec 训练了专用草稿模型,使其从 vLLM 产生的真实隐藏状态中学习,而非从通用数据集学习。
Qwen 3.5 397B:注意力路径融合
Qwen 3.5 397B 在所有 12 家测量提供商中排名第一,在长提示上实现亚秒级 TTFT(首令牌时间)。优化针对该模型特定的 linear-attention 架构及其归一化模式,在并发数 256 时实现「最高 6.69 请求/秒」(相对于基准)。
对开源生态意味着什么?
这一结果具有标志性意义:任何人都可以在自己硬件上运行的 vLLM 在三个前沿模型上领跑生产基准测试。对于运行自托管推理(隐私保护、数据主权、成本可预测性)的组织而言,这证明开源技术栈与专有服务相比不再需要承受性能上的结构性代价。
常见问题
- 什么是核融合,能带来多大提升?
- 核融合是将多个较小的 GPU 操作合并为一个较大启动核的技术,从而减少启动开销。在 DeepSeek V3.2 上,vLLM 通过合并归一化、旋转嵌入和量化操作,将每层 GPU 核启动次数从约 33 次减少到约 10 次——在批大小为 1 时实现 1.28× 加速。
- 什么是 EAGLE3,为何对 MiniMax-M2.5 重要?
- EAGLE3 是一种推测解码方法,其中较小的「草稿」模型预测令牌,主模型在一次前向传播中验证。vLLM 团队使用 TorchSpec 训练了自定义 EAGLE3 草稿模型,让其从 vLLM 产生的真实隐藏状态中学习——在 MiniMax-M2.5 上以并发数 1 实现 326 令牌/秒。
- 开源追上专有推理意味着什么?
- Artificial Analysis 排行榜衡量 12 家推理服务提供商的生产性能。任何人都可以在自己硬件上运行的 vLLM 在三个前沿模型上排名第一,表明开源技术栈不必再为「开放性」付出性能代价。