vLLM:オープンソース推論エンジンが Artificial Analysis リーダーボードで首位を獲得
vLLM はオープンソースの推論エンジンで、積極的なカーネル融合(1 レイヤーあたり 33→10 起動、1.28× 高速化)、カスタム EAGLE3 ドラフトモデルによる投機的デコード、線形アテンションパス最適化により、DeepSeek V3.2・MiniMax-M2.5・Qwen 3.5 397B の 3 つのフロンティアモデルで Artificial Analysis リーダーボード首位を獲得しました。
この記事はAIにより一次情報源から生成されました。
オープンソースの推論エンジン vLLM が、目標を絞った最適化により Artificial Analysis リーダーボードの 3 つのフロンティアモデルで首位を獲得しました。開発チームは、DeepSeek V3.2・MiniMax-M2.5・Qwen 3.5 397B で vLLM が首位であることを確認しました。これはモデルごとに異なるアプローチを取った結果です。
DeepSeek V3.2:積極的なカーネル融合
DeepSeek V3.2 において、vLLM は毎秒 230 トークンの出力スループットを達成しています——発表文によると「ほとんどの推論プロバイダーが報告する値の 4 倍以上」とのことです。正規化・ロータリー埋め込み・量化操作をまとめる積極的なカーネル融合が鍵です。1 レイヤーあたりの GPU カーネル起動数は約 33 から わずか 10 に削減され、小さなバッチサイズでの起動オーバーヘッドを排除し、バッチサイズ 1 で 1.28× の高速化を実現しました。
MiniMax-M2.5:カスタム EAGLE3 ドラフトモデル
MiniMax-M2.5 では、カスタム EAGLE3 投機的デコードを使用して並行処理数 1 で 326 トークン/秒を達成しています。EAGLE3 は小さな「ドラフト」モデルが複数のトークンを先読みし、大きなモデルが一回のパスで検証する技術です。vLLM のエンジニアは TorchSpec を通じて専用ドラフトモデルをトレーニングし、汎用データセットではなく vLLM が実際に生成する隠れ状態から学習させました。
Qwen 3.5 397B:アテンションパス融合
Qwen 3.5 397B は測定された全 12 プロバイダーの中で首位を獲得し、長いプロンプトでサブ秒の TTFT(最初のトークンまでの時間)を実現しています。このモデル特有の linear-attention アーキテクチャと正規化パターンに対する最適化が施され、並行処理数 256 でベースラインに対して「最大 6.69 リクエスト/秒」を実現しています。
オープンソースエコシステムへの意味
この結果は示唆的です:誰でも自分のハードウェアで実行できる vLLM が、3 つのフロンティアモデルの本番ベンチマークをリードしています。セルフホスト推論を行う組織(プライバシー・データ主権・コスト予測可能性の観点から)にとって、これはオープンスタックがプロプライエタリサービスに対してパフォーマンスの構造的代価を払わなくて良いという証拠です。
よくある質問
- カーネル融合とは何ですか?どれくらいの効果がありますか?
- カーネル融合は複数の小さな GPU 操作を一つの大きな起動カーネルにまとめる技術で、起動オーバーヘッドを削減します。DeepSeek V3.2 では正規化・ロータリー埋め込み・量化操作を統合し、1 レイヤーあたりの GPU カーネル起動数を約 33 から約 10 に削減——バッチサイズ 1 で 1.28× の高速化を実現しました。
- EAGLE3 とは何ですか?MiniMax-M2.5 にとってなぜ重要ですか?
- EAGLE3 は小さな「ドラフト」モデルがトークンを先読み予測し、大きなモデルが一回のパスで検証する投機的デコード手法です。vLLM チームは TorchSpec を通じてカスタム EAGLE3 ドラフトモデルをトレーニングし、汎用データセットではなく vLLM が実際に生成する隠れ状態から学習させました。MiniMax-M2.5 で並行処理数 1 の時に 326 トークン/秒を実現しています。
- オープンソースがプロプライエタリ推論に追いついたことは何を意味しますか?
- Artificial Analysis リーダーボードは 12 の推論サービスプロバイダーの本番パフォーマンスを測定します。誰でも自分のハードウェアで実行できる vLLM が 3 つのフロンティアモデルで首位を占めることは、オープンソーススタックがもはや「開放性の代価」としてパフォーマンスを犠牲にしなくて済むことを示しています。