AMD: ATOM 옵티마이저 — MI355X에서 DeepSeek-V4를 위한 DP Attention 및 Two-Batch Overlap
ATOM은 MI355X GPU용 AMD 오픈소스 추론 엔진으로, DeepSeek-V4에 두 가지 최적화를 제공합니다. PrefillDelayer는 랭크 조율 시 발생하는 손실을 제거하고, Two-Batch Overlap은 네트워크 연산 중첩으로 토큰 균형 조정을 가속화합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
ATOM이란 무엇이며 AMD는 왜 자체 추론 엔진을 개발합니까?
ATOM은 AMD의 오픈소스 추론 엔진으로, MI355X GPU가 대형 언어 모델을 실행하는 방식을 최적화하는 소프트웨어 엔진입니다. 특수한 all2all 네트워크 하드웨어가 필요한 방식과 달리, ATOM은 표준 인터커넥트에서 표준 집합적 프리미티브를 사용해 동등한 성능을 달성할 수 있음을 보여줍니다.
DeepSeek-V4를 위한 두 가지 핵심 최적화
PrefillDelayer는 Data Parallel 랭크가 프리필 단계에 진입하는 시점을 조율합니다. 랭크들이 유효한 작업 없이 서로를 기다릴 때 발생하는 소위 더미 프리필 손실을 제거합니다. 두 번째 최적화인 Two-Batch Overlap은 개별 토큰 수준의 토큰 균형 조정을 도입하고 AllGather와 ReduceScatter 네트워크 연산(AG/RS 중첩)을 겹쳐 전체 네트워크 전송 대기 시간을 줄입니다.
SemiAnalysis InferenceX 벤치마크 결과
입력 토큰 8K, 출력 토큰 1K 워크로드의 SemiAnalysis InferenceX 벤치마크에서 측정이 수행되었습니다. AMD는 ATOM이 MI355X에서 고가의 커스텀 인터커넥트 하드웨어를 요구하는 특수 all2all 방식에 필적한다고 강조합니다. 이는 표준 인프라에서 주목할 만한 결과입니다. 코드는 오픈소스로 공개되어 AMD 하드웨어에서 DeepSeek-V4를 실험하는 모든 사용자가 활용할 수 있습니다.
자주 묻는 질문
- ATOM 추론 엔진이란 무엇이며 기존 솔루션과 어떻게 다릅니까?
- ATOM은 AMD의 오픈소스 추론 엔진으로, GPU가 AI 모델을 실행하는 방식을 관리하는 소프트웨어 계층입니다. 고가의 커스텀 인터커넥트가 필요한 all2all 방식 대신 표준 네트워크 프리미티브를 사용해 높은 성능을 달성한다는 점이 특징입니다.
- ATOM은 어떤 워크로드에서 측정되었습니까?
- SemiAnalysis InferenceX 테스트에서 입력 토큰 8K, 출력 토큰 1K 워크로드로 벤치마킹이 수행되었습니다. 이는 DeepSeek-V4 같은 대형 언어 모델의 일반적인 프로덕션 요구 사항에 해당합니다.