🟡 🔧 하드웨어 게시일: · 2 분 읽기 ·

AMD:Instinct GPU용 신규 ATOM 추론 엔진, OpenAI 호환 API와 MoE 최적화 제공

에디토리얼 일러스트: AI 모델 서빙을 위한 AMD Instinct GPU 스택

AMD가 Instinct GPU를 위한 추론 엔진 ATOM을 발표했습니다. OpenAI 호환 API를 제공하며 KV 캐시, 스케줄링, 병렬성을 조율합니다. ATOM은 ROCm 스택 최상위에 위치하며 AITER 커널과 MoRI RDMA 통신을 활용해 TP, DP, EP 병렬성을 지원하고 DeepSeek V2~V4, Mixtral, Qwen3-MoE 등 MoE 모델에 최적화되어 있습니다. FP8, MXFP4, INT8, INT4 양자화와 EAGLE 제안자를 사용한 MTP 투기적 디코딩을 제공합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

AMD가 Instinct GPU를 위한 추론 엔진 ATOM을 발표했습니다. AMD 하드웨어에서의 대형 언어 모델 프로덕션 서빙을 직접 겨냥한 제품입니다.

ATOM이 제공하는 기능과 AMD 스택에서의 위치는?

ATOM은 OpenAI 호환 API를 제공하며 추론 시 KV 캐시, 스케줄링, 병렬성을 조율합니다. 추론 엔진은 요청을 수신하고 GPU에서의 모델 실행을 관리하는 레이어입니다. ATOM은 AMD 스택의 최상위에 위치합니다: ROCm이 플랫폼, AITER가 커널 가속, MoRI가 노드 간 RDMA 통신, ATOM이 서빙 레이어 역할을 합니다. RDMA(원격 직접 메모리 액세스)는 프로세서 부하 없이 장치 간 직접 메모리 전송을 가능하게 합니다.

ATOM이 지원하는 모델과 병렬성 유형은?

ATOM은 텐서 병렬(TP), 데이터 병렬(DP), 전문가 병렬(EP)을 지원하며 특히 MoE(Mixture of Experts) 모델에 최적화되어 있습니다. 명시적으로 언급된 모델에는 DeepSeek V2~V4, Mixtral, Qwen3-MoE, Kimi-K2.5, MiniMax-M2가 포함됩니다. 전문가 병렬은 MoE 모델의 각 전문가를 여러 GPU에 분산시켜 대규모 MoE 아키텍처의 효율적 서빙에 핵심적입니다.

ATOM은 어떻게 추론을 가속화합니까?

ATOM은 FP8, MXFP4, INT8, INT4 형식의 양자화를 제공하며 HuggingFace 모델 설정에서 자동으로 감지됩니다. 양자화는 가중치 정밀도를 낮춰 추론을 가속화하고 메모리 소비를 줄입니다. 또한 ATOM은 EAGLE 제안자를 사용한 MTP 투기적 디코딩, 프리픽스 캐시 공유, 처리 속도 향상을 위한 분할 컴파일을 활용합니다.

ATOM은 실제로 어떻게 사용합니까?

ATOM은 단독으로 실행하거나 LLM 서빙을 위한 인기 라이브러리인 vLLM과 SGLang의 플러그인으로 사용할 수 있습니다. AMD는 야간 성능 추적이 포함된 공개 벤치마크 대시보드도 공개하여 NVIDIA 스택의 대안으로서 Instinct GPU 서빙 발전 현황을 투명하게 제공합니다.

자주 묻는 질문

AMD ATOM이란 무엇입니까?
AMD Instinct GPU용 추론 엔진으로, OpenAI 호환 API를 제공하고 KV 캐시, 스케줄링, 병렬성을 조율합니다.
ATOM이 최적화하는 모델은?
DeepSeek V2~V4, Mixtral, Qwen3-MoE, Kimi-K2.5, MiniMax-M2 등의 MoE 모델입니다.
ATOM이 지원하는 양자화 형식은?
FP8, MXFP4, INT8, INT4이며 HuggingFace 설정에서 자동으로 감지됩니다.