vLLM:オープンソース推論エンジンが Artificial Analysis リーダーボードで首位を獲得
vLLM はオープンソースの推論エンジンで、積極的なカーネル融合(1 レイヤーあたり 33→10 起動、1.28× 高速化)、カスタム EAGLE3 ドラフトモデルによる投機的デコード、線形アテンションパス最適化により、DeepSeek V3.2・MiniMax-M2.5・Qwen 3.5 397B の 3 つのフロンティアモデルで Artificial Analysis リーダーボード首位を獲得しました。