AMD EAGLE3: MI325X에서 Kimi-K2.5 33% 가속

AMD ROCm 팀이 8× Instinct MI325X에서 Kimi-K2.5 모델에 EAGLE3 추측 디코딩을 적용해 GSM8K 정확도 손실 없이 출력 처리량 33% 향상, 중앙값 토큰 간 지연 58% 감소를 달성했습니다.

EAGLE3, AMD 하드웨어에 트리 기반 추측 디코딩 도입

AMD ROCm 팀은 각 256GB HBM 메모리를 탑재한 8× AMD Instinct MI325X GPU 클러스터(아키텍처 gfx942)에서 EAGLE3 알고리즘을 구현한 결과를 발표했습니다. 테스트 모델은 Moonshot AI의 Kimi-K2.5로, 497GB 파라미터를 가진 대규모 혼합 전문가(MoE) 모델이며 W4A8 포맷(INT4 가중치, INT8 활성화)으로 양자화되어 있습니다.

추측 디코딩은 작고 빠른 초안 모델이 다음 토큰 여러 개를 미리 제안하고, 주요(대형) 모델이 이를 단일 패스로 병렬 검증하는 기술입니다. 토큰을 하나씩 생성하는 방식 대신 병렬 검증을 활용합니다. EAGLE3는 이 아이디어를 트리 기반 방식으로 확장합니다. 여러 가설의 트리를 한 번에 제안해 큰 모델이 재계산 없이 더 긴 시퀀스를 수용할 확률을 높입니다.

측정 결과

동시 요청 40개(concurrency=40) 조건에서 측정한 결과입니다.

출력 처리량: 672 → 895 토큰/초, +33.1% 증가
디코드 지연(TPOT): 42.73 → 27.41ms, −35.9% 감소
중앙값 토큰 간 지연(ITL): 27.98 → 11.75ms, −58.0% 감소

EAGLE3 없이는 토큰당 평균 약 28ms를 기다려야 했지만, EAGLE3 적용 후에는 12ms 미만으로 절반 이하로 줄었습니다. GSM8K 수학 벤치마크 정확도는 0.93 이상으로 유지되어 성능 저하가 없습니다.

AMD 생태계에 주는 의미

이 결과는 AMD MI325X가 서류상 NVIDIA 장비의 대안에 그치는 것이 아니라, 하드웨어 교체나 모델 품질 저하 없이 ROCm 스택의 소프트웨어 최적화만으로 프로덕션 MoE 모델에서 실질적인 가속을 제공할 수 있음을 보여줍니다.

자주 묻는 질문

추측 디코딩이란 무엇이며 텍스트 생성을 어떻게 가속합니까?

추측 디코딩은 작은 초안 모델이 다음 토큰 여러 개를 빠르게 제안하고 큰 모델이 이를 병렬로 검증하는 기술입니다. 토큰을 하나씩 생성하는 대신 병렬 검증으로 토큰 간 대기 시간을 줄입니다.

EAGLE3 가속이 모델 정확도를 희생합니까?

아니요. GSM8K 벤치마크 점수가 0.93 이상을 유지하므로 Kimi-K2.5는 지연을 크게 줄이면서도 완전한 정확도를 보존합니다.

AMD ROCm: EAGLE3 추측 디코딩으로 MI325X에서 Kimi-K2.5 33% 가속

EAGLE3, AMD 하드웨어에 트리 기반 추측 디코딩 도입

측정 결과

AMD 생태계에 주는 의미

자주 묻는 질문

출처

관련 뉴스