🟡 🤖 모델 게시일: · 2 분 읽기 ·

vLLM: 오픈소스 추론 엔진이 Artificial Analysis 리더보드 1위를 차지하다

Editorial illustration: 오픈소스 추론 엔진이 Artificial Analysis 리더보드 1위를 차지하다

vLLM은 공격적인 커널 융합(레이어당 33→10 실행, 1.28× 속도 향상), 맞춤형 EAGLE3 드래프트 모델 투기적 디코딩, 선형 어텐션 경로 최적화를 통해 DeepSeek V3.2, MiniMax-M2.5, Qwen 3.5 397B 세 개의 프론티어 모델에서 Artificial Analysis 리더보드 1위를 차지한 오픈소스 추론 엔진입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

오픈소스 추론 엔진 vLLM이 목표 지향적 최적화를 통해 Artificial Analysis 리더보드의 세 개 프론티어 모델에서 1위를 차지했습니다. 개발팀은 DeepSeek V3.2, MiniMax-M2.5, Qwen 3.5 397B에서 vLLM이 선두라고 확인했으며, 이는 모델별로 다른 접근 방식을 취한 결과입니다.

DeepSeek V3.2: 공격적인 커널 융합

DeepSeek V3.2에서 vLLM은 초당 230 토큰의 출력 처리량을 달성합니다——발표에 따르면 “대부분의 추론 제공업체가 보고하는 수치의 4배 이상”입니다. 핵심은 정규화, 로터리 임베딩, 양자화 연산을 결합하는 공격적인 커널 융합입니다. 레이어당 GPU 커널 실행 횟수는 약 33회에서 단 10회로 줄어들어 소규모 배치에서의 실행 오버헤드를 제거하고 배치 크기 1에서 1.28× 속도 향상을 실현합니다.

MiniMax-M2.5: 맞춤형 EAGLE3 드래프트 모델

MiniMax-M2.5에서 vLLM은 맞춤형 EAGLE3 투기적 디코딩을 사용하여 동시성 1 기준 326 토큰/초를 달성합니다. EAGLE3는 작은 ‘드래프트’ 모델이 여러 토큰을 미리 예측하고 큰 모델이 한 번의 패스로 검증하는 기술입니다. vLLM 엔지니어들은 TorchSpec을 통해 전용 드래프트 모델을 훈련하여 일반 데이터셋이 아닌 vLLM이 생성하는 실제 숨겨진 상태에서 학습하게 했습니다.

Qwen 3.5 397B: 어텐션 경로 융합

Qwen 3.5 397B는 측정된 전체 12개 제공업체 중 1위를 차지하며, 긴 프롬프트에서 서브초 TTFT(첫 번째 토큰까지의 시간)를 달성합니다. 이 모델 특유의 linear-attention 아키텍처와 정규화 패턴에 대한 최적화로 동시성 256에서 베이스라인 대비 “최대 6.69 요청/초”를 실현합니다.

오픈소스 생태계에 대한 의미

이 결과는 시사하는 바가 큽니다: 누구나 자신의 하드웨어에서 실행할 수 있는 vLLM이 세 개의 프론티어 모델에서 프로덕션 벤치마크를 선도합니다. 셀프 호스팅 추론을 운영하는 조직(개인정보 보호, 데이터 주권, 비용 예측 가능성 관점에서)에게 이는 오픈 스택이 독점 서비스에 비해 성능상 구조적 대가를 더 이상 치르지 않아도 된다는 증거입니다.

자주 묻는 질문

커널 융합이란 무엇이며 얼마나 효과가 있습니까?
커널 융합은 여러 개의 작은 GPU 연산을 하나의 더 큰 실행 커널로 결합하는 기술로, 실행 오버헤드를 줄입니다. DeepSeek V3.2에서 vLLM은 정규화, 로터리 임베딩, 양자화 연산을 결합하여 레이어당 GPU 커널 실행 횟수를 약 33회에서 약 10회로 줄였습니다——배치 크기 1에서 1.28× 속도 향상을 달성했습니다.
EAGLE3란 무엇이며 MiniMax-M2.5에 왜 중요합니까?
EAGLE3는 작은 '드래프트' 모델이 토큰을 예측하고 큰 모델이 한 번의 패스로 검증하는 투기적 디코딩 방식입니다. vLLM 팀은 TorchSpec을 통해 맞춤형 EAGLE3 드래프트 모델을 훈련하여 일반 데이터셋이 아닌 vLLM이 생성하는 실제 숨겨진 상태에서 학습하게 했습니다. MiniMax-M2.5에서 동시성 1 기준 326 토큰/초를 달성합니다.
오픈소스가 독점 추론을 따라잡았다는 것은 무엇을 의미합니까?
Artificial Analysis 리더보드는 12개 추론 서비스 제공업체의 프로덕션 성능을 측정합니다. 누구나 자신의 하드웨어에서 실행할 수 있는 vLLM이 세 개의 프론티어 모델에서 1위를 차지했다는 것은 오픈소스 스택이 더 이상 '개방성의 대가'로 성능을 희생할 필요가 없음을 보여줍니다.