AMD MI355X: MXFP4/MXFP6으로 처리량 +29%

AMD는 Instinct MI355X 가속기에서 W_MXFP4_A_MXFP6 혼합 정밀도 양자화를 시연하여 vLLM 프레임워크를 활용한 프로덕션 추론 환경에서 FP8 수준에 가까운 정확도를 유지하면서 처리량을 최대 29% 향상시켰습니다.

AMD MI355X와 새로운 양자화 전략

AMD는 Instinct MI355X AI 가속기에서 W_MXFP4_A_MXFP6 양자화 결과를 발표했습니다. 이는 4비트 가중치와 6비트 활성화를 사용하는 혼합 정밀도 기법으로, vLLM 프레임워크를 활용한 프로덕션 환경에서 추론 속도와 수치 정확도 간의 균형을 목표로 합니다.

실제 처리량은 얼마나 향상되었습니까?

Llama-3.1-8B 모델에서 W_MXFP4_A_MXFP6 방식은 **BF16 기준 대비 처리량 +29%**를 달성했습니다. 더 큰 Qwen3.6-27B 모델에서는 +27% 향상을 보였습니다. 두 결과 모두 정확도 손실이 큰 순수 MXFP4 방식을 능가합니다.

정확도: 속도와 정밀도 사이의 트레이드오프

정밀도는 순수 MXFP4보다 FP8 표준에 더 가깝게 유지됩니다. Llama-3.1-8B GSM8K 벤치마크에서 혼합 정밀도는 **76.42%**를 달성했습니다. 이는 순수 MXFP4의 62.55%보다 훨씬 높지만 FP8의 80.44%보다는 약간 낮습니다. Qwen3.6-27B의 AIME26 벤치마크에서도 유사한 패턴이 나타납니다: 혼합 정밀도 85.8%, FP8 86.7%, 순수 MXFP4 80.0%.

지연 시간: TTFT 1초 이상 단축

Llama-3.1-8B의 TTFT(Time To First Token)는 6,409ms에서 5,159ms로 약 1.25초 감소했습니다. 동시 요청이 많은 프로덕션 시스템에서 이러한 지연 시간 감소는 사용자 경험에 직접적인 영향을 미칩니다.

결론: 프로덕션을 위한 실용적인 트레이드오프

MI355X의 W_MXFP4_A_MXFP6은 성숙한 프로덕션 추론 솔루션으로 자리매김했습니다. 처리량은 순수 MXFP4에 근접하고 정확도는 FP8에 근접하여 하나를 선택할 필요가 없습니다. AMD는 이를 통해 H100/H200 아키텍처의 NVIDIA FP8 추론에 직접 대항하며, AMD 하드웨어를 이미 사용하거나 단일 GPU 인프라 공급업체 의존을 피하려는 조직을 위해 ROCm 생태계 내에서 대안을 제공합니다.

자주 묻는 질문

혼합 정밀도 양자화란 무엇이며 왜 중요합니까?

혼합 정밀도 양자화는 신경망의 가중치와 활성화를 서로 다른 수치 형식(예: 4비트 가중치와 6비트 활성화)으로 저장하는 AI 모델 압축 기법입니다. 이를 통해 메모리 사용량을 줄이고 정확도 손실을 최소화하면서 추론 속도를 높일 수 있습니다.

TTFT란 무엇이며 MI355X에서 얼마나 감소했습니까?

TTFT(Time To First Token)는 쿼리 전송부터 첫 번째 생성 토큰이 나타날 때까지의 지연 시간을 측정합니다. Llama-3.1-8B 모델에서 AMD는 MXFP4/MXFP6 방식을 적용하여 TTFT를 6,409ms에서 5,159ms로 단축했습니다.

AMD: MI355X에서 MXFP4/MXFP6 혼합 정밀도 양자화로 처리량 29% 향상