vLLM: 오픈소스 추론 엔진이 Artificial Analysis 리더보드 1위를 차지하다
vLLM은 공격적인 커널 융합(레이어당 33→10 실행, 1.28× 속도 향상), 맞춤형 EAGLE3 드래프트 모델 투기적 디코딩, 선형 어텐션 경로 최적화를 통해 DeepSeek V3.2, MiniMax-M2.5, Qwen 3.5 397B 세 개의 프론티어 모델에서 Artificial Analysis 리더보드 1위를 차지한 오픈소스 추론 엔진입니다.