vLLM が Artificial Analysis 首位に：オープンソース快挙

vLLM はオープンソースの推論エンジンで、積極的なカーネル融合（1 レイヤーあたり 33→10 起動、1.28× 高速化）、カスタム EAGLE3 ドラフトモデルによる投機的デコード、線形アテンションパス最適化により、DeepSeek V3.2・MiniMax-M2.5・Qwen 3.5 397B の 3 つのフロンティアモデルで Artificial Analysis リーダーボード首位を獲得しました。

オープンソースの推論エンジン vLLM が、目標を絞った最適化により Artificial Analysis リーダーボードの 3 つのフロンティアモデルで首位を獲得しました。開発チームは、DeepSeek V3.2・MiniMax-M2.5・Qwen 3.5 397B で vLLM が首位であることを確認しました。これはモデルごとに異なるアプローチを取った結果です。

DeepSeek V3.2：積極的なカーネル融合

DeepSeek V3.2 において、vLLM は毎秒 230 トークンの出力スループットを達成しています——発表文によると「ほとんどの推論プロバイダーが報告する値の 4 倍以上」とのことです。正規化・ロータリー埋め込み・量化操作をまとめる積極的なカーネル融合が鍵です。1 レイヤーあたりの GPU カーネル起動数は約 33 からわずか 10 に削減され、小さなバッチサイズでの起動オーバーヘッドを排除し、バッチサイズ 1 で 1.28× の高速化を実現しました。

MiniMax-M2.5：カスタム EAGLE3 ドラフトモデル

MiniMax-M2.5 では、カスタム EAGLE3 投機的デコードを使用して並行処理数 1 で 326 トークン/秒を達成しています。EAGLE3 は小さな「ドラフト」モデルが複数のトークンを先読みし、大きなモデルが一回のパスで検証する技術です。vLLM のエンジニアは TorchSpec を通じて専用ドラフトモデルをトレーニングし、汎用データセットではなく vLLM が実際に生成する隠れ状態から学習させました。

Qwen 3.5 397B：アテンションパス融合

Qwen 3.5 397B は測定された全 12 プロバイダーの中で首位を獲得し、長いプロンプトでサブ秒の TTFT（最初のトークンまでの時間）を実現しています。このモデル特有の linear-attention アーキテクチャと正規化パターンに対する最適化が施され、並行処理数 256 でベースラインに対して「最大 6.69 リクエスト/秒」を実現しています。

オープンソースエコシステムへの意味

この結果は示唆的です：誰でも自分のハードウェアで実行できる vLLM が、3 つのフロンティアモデルの本番ベンチマークをリードしています。セルフホスト推論を行う組織（プライバシー・データ主権・コスト予測可能性の観点から）にとって、これはオープンスタックがプロプライエタリサービスに対してパフォーマンスの構造的代価を払わなくて良いという証拠です。

よくある質問

カーネル融合とは何ですか？どれくらいの効果がありますか？

カーネル融合は複数の小さな GPU 操作を一つの大きな起動カーネルにまとめる技術で、起動オーバーヘッドを削減します。DeepSeek V3.2 では正規化・ロータリー埋め込み・量化操作を統合し、1 レイヤーあたりの GPU カーネル起動数を約 33 から約 10 に削減——バッチサイズ 1 で 1.28× の高速化を実現しました。

EAGLE3 とは何ですか？MiniMax-M2.5 にとってなぜ重要ですか？

EAGLE3 は小さな「ドラフト」モデルがトークンを先読み予測し、大きなモデルが一回のパスで検証する投機的デコード手法です。vLLM チームは TorchSpec を通じてカスタム EAGLE3 ドラフトモデルをトレーニングし、汎用データセットではなく vLLM が実際に生成する隠れ状態から学習させました。MiniMax-M2.5 で並行処理数 1 の時に 326 トークン/秒を実現しています。

オープンソースがプロプライエタリ推論に追いついたことは何を意味しますか？

Artificial Analysis リーダーボードは 12 の推論サービスプロバイダーの本番パフォーマンスを測定します。誰でも自分のハードウェアで実行できる vLLM が 3 つのフロンティアモデルで首位を占めることは、オープンソーススタックがもはや「開放性の代価」としてパフォーマンスを犠牲にしなくて済むことを示しています。

vLLM：オープンソース推論エンジンが Artificial Analysis リーダーボードで首位を獲得

DeepSeek V3.2：積極的なカーネル融合

MiniMax-M2.5：カスタム EAGLE3 ドラフトモデル

Qwen 3.5 397B：アテンションパス融合

オープンソースエコシステムへの意味

よくある質問

出典

関連ニュース