AMD vLLM-ATOM — vLLM용 Instinct GPU 최적화 플러그인

AMD가 소스 코드를 전혀 수정하지 않고 vLLM 프로덕션 프레임워크에 Instinct GPU 최적화를 통합하는 오픈소스 플러그인 vLLM-ATOM을 공개했다. Python entry_points를 통해 자동으로 활성화되며, Kimi-K2.5 및 DeepSeek V3/R1을 포함한 dense 및 MoE 모델을 지원한다. AITER 커널로 fused MoE와 flash attention을 구현한다.

vLLM-ATOM이란 무엇인가?

AMD는 2026년 5월 7일 vLLM-ATOM을 발표했다. 가장 널리 사용되는 대형 언어 모델 서빙 프로덕션 프레임워크 중 하나인 vLLM에 Instinct GPU 최적화를 통합하는 오픈소스 플러그인이다. 핵심 특징은 vLLM 소스 코드를 단 한 줄도 수정하지 않고 통합이 이루어진다는 것이다. 플러그인은 표준 Python entry_points 메커니즘을 통해 활성화되며 register_platform()과 register_model() 두 가지 훅을 등록한다.

3계층 아키텍처

플러그인은 세 가지 계층을 통해 책임을 명확히 분리한다.

vLLM 계층은 요청 스케줄링, KV 캐시 관리, continuous batching, OpenAI 호환 API에 대한 제어를 유지한다.
ATOM 플러그인은 플랫폼, 최적화된 모델 구현, 어텐션 백엔드 라우팅을 등록한다.
AITER는 Instinct 하드웨어에 최적화된 저수준 GPU 커널을 제공한다.

이러한 분리 덕분에 AMD는 vLLM 저장소를 포크하지 않고 최적화를 기여할 수 있다. 오픈소스 생태계의 지속 가능성에 핵심적이다.

어떤 모델을 지원하는가?

플러그인은 dense와 MoE 아키텍처를 통해 텍스트(LLM)와 멀티모달(VLM) 모델 모두를 커버한다.

Kimi-K2.5 — 멀티모달 MoE 모델(텍스트/이미지/동영상)
DeepSeek V3와 R1, MLA+MoE 변형 포함. FP8 및 MXFP4 양자화 지원
Qwen3 시리즈, dense 및 MoE 구성 모두
GLM-4와 GPT-OSS, MoE 지원 포함

어텐션 백엔드 라우팅은 자동이다. 표준 Multi-Head Attention에는 AiterBackend, Multi-head Latent Attention 아키텍처에는 AiterMLABackend가 사용된다.

왜 전략적으로 중요한가?

NVIDIA의 추론 시장 지배력은 성숙한 프로그래밍 패러다임과 하드웨어 모두에 기반한다. AMD의 vLLM-ATOM 행보——fused MoE와 flash attention을 위한 AITER 커널 포함——는 회사가 「제로 마찰」 경험에 집중하고 있음을 보여준다. vLLM 옆에 플러그인을 설치하면 최적화가 자동으로 활성화된다. 라이브 벤치마크 대시보드는 모델 업데이트를 거쳐 처리량, 지연 시간, 정확도를 추적해 확장 전 프로덕션 검증을 가능하게 한다. Kimi-K2.5와 DeepSeek를 중심으로 인프라를 구축하는 오픈소스 커뮤니티에게 이는 하드웨어 다양성을 향한 구체적인 한 걸음이다.

자주 묻는 질문

vLLM이란 무엇인가요?

대형 언어 모델 서빙을 위한 오픈소스 프로덕션 프레임워크. continuous batching과 PagedAttention KV 캐시 메커니즘을 통한 높은 처리량으로 유명하다.

MoE 아키텍처란 무엇인가요?

Mixture of Experts — 여러 전문화된 서브네트워크를 가진 모델. 추론 시 그 중 일부만 활성화되어 큰 용량을 유지하면서도 토큰당 계산 비용을 낮춘다.

AITER란 무엇인가요?

AMD가 Instinct 하드웨어에 최적화한 저수준 GPU 커널 라이브러리 — fused MoE, flash attention, 양자화 GEMM, RoPE fusion을 포함한다.

AMD: vLLM-ATOM 플러그인, vLLM 코드 수정 없이 Instinct 최적화 제공

vLLM-ATOM이란 무엇인가?

3계층 아키텍처

어떤 모델을 지원하는가?

왜 전략적으로 중요한가?

자주 묻는 질문

출처

관련 뉴스