Eagle3은 어떻게 품질 저하 없이 추론을 가속화하나요?

Eagle3은 한 번에 여러 후보 토큰을 제안하는 소형 드래프트 모델을 사용하며, 타겟 모델은 하나의 순방향 패스에서 제안된 모든 토큰을 검증합니다. 거부된 토큰은 일반 디코딩을 강제하므로 출력 분포가 수학적으로 원본과 동일하게 유지되어 품질 손실이 없습니다.

AMD Quark는 Eagle3에 무엇을 제공하나요?

AMD Quark는 LM 헤드를 더 높은 정밀도로 유지하면서 Kimi-K2.5용 드래프트 모델을 FP8 정밀도로 양자화했습니다. FP8 드래프트 모델은 GPU 메모리를 적게 차지하며 측정에서 BF16 버전을 약간 능가해 MI355X에서 최대 2.00배 처리량을 달성했습니다.

어떤 모델과 하드웨어에서 속도 향상이 시연되었나요?

Kimi-K2.5(MXFP4 타겟)는 1.69배~2.00배 처리량을, MiniMax-M2.5(BF16)는 1.38배~1.79배를 달성했으며, 모두 AITER MLA 어텐션을 사용한 ROCm 스택과 vLLM 백엔드를 갖춘 AMD Instinct MI355X에서 측정되었습니다.

AMD Eagle3: MI355X에서의 투기적 디코딩

AMD ROCm 팀은 2026년 7월 3일 AMD 하드웨어에서의 Eagle3 투기적 디코딩 프로덕션 적용 세부 사항을 공개했습니다. Eagle3 다중 레이어 접근법, vLLM 백엔드, AMD Quark FP8 양자화의 조합은 AMD Instinct MI355X에서 Kimi-K2.5에 대해 1.69배~2.00배, MiniMax-M2.5에 대해 1.38배~1.79배 높은 처리량을 달성하며 출력 품질 손실이 없습니다.

AMD ROCm 팀은 2026년 7월 3일 AMD GPU 가속기에서의 Eagle3 투기적 디코딩 프로덕션 적용에 대한 상세한 내용을 공개했습니다. Eagle3 접근법, vLLM 추론 프레임워크, AMD Quark 양자화 도구의 조합은 AMD Instinct MI355X에서 Kimi-K2.5에 대해 최대 2.00배의 처리량을 달성하며, 출력 토큰 품질이 수학적으로 보장됩니다. 이 연구는 vLLM에서 Eagle3와 AITER MLA 어텐션의 동시 활성화를 막아왔던 주요 기술적 장벽의 해결책도 문서화합니다.

Eagle3는 어떻게 품질 손실 없이 추론을 가속화하나요?

Eagle3는 타겟 모델의 정확한 출력 분포를 유지하는 무손실 추론 가속화 기법입니다. 표준 자기회귀 LLM은 병렬 활용이 불가능한 순차적 순방향 패스에서 각 토큰을 개별적으로 생성합니다. Eagle3는 소형 드래프트 모델을 도입하여 이 순차성을 깨뜨립니다. 드래프트 모델은 한 번에 여러 후보 토큰을 제안하고, 타겟 모델은 하나의 공유 순방향 패스에서 제안된 모든 토큰을 검증합니다. 타겟 모델이 수락한 토큰은 출력에 포함되고, 거부된 토큰은 해당 위치에서 일반 디코딩을 강제합니다. 이 수학적 보장은 Eagle3가 출력 분포를 변경하지 않음을 의미합니다. 속도 향상은 오직 타겟 모델의 순방향 패스 수를 줄임으로써만 달성됩니다.

이전 투기적 접근법과 비교한 Eagle3의 핵심 혁신은 타겟 모델의 다중 레이어 특징에 대한 드래프트 모델 훈련입니다. 드래프트 모델이 표현의 마지막 레이어만 보는 대신, Eagle3는 타겟 모델의 저수준, 중간 수준, 고수준 의미론적 특징을 통합합니다. 고수준 특징은 추상적 의미론을, 중간 수준은 구문 구조를, 저수준은 어휘 패턴을 담습니다. 세 가지 수준을 모두 결합함으로써 드래프트 모델은 단순한 접근법보다 높은 토큰 수락률을 달성합니다. 높은 수락률은 타겟 모델이 전체 수정 순방향 패스를 수행해야 하는 빈도가 줄어들기 때문에 더 큰 속도 향상으로 직접 전환됩니다.

AMD Instinct MI355X에서의 Kimi-K2.5와 MiniMax-M2.5

InferenceX 벤치마크 패키지와 ROCm 소프트웨어 스택을 사용하여 AMD Instinct MI355X GPU에서 두 가지 프런티어 모델에 대한 프로덕션 속도 향상이 측정되었습니다.

MXFP4 타겟 모델 정밀도의 Kimi-K2.5는 두 가지 유형의 Eagle3 드래프트 모델로 테스트되었습니다. BF16 Eagle3 드래프트는 4~64의 동시 요청 범위에 걸친 1K/1K 워크로드(입력 토큰 1024개, 출력 토큰 1024개)에서 1.69배~1.90배의 처리량 계수를 달성합니다. AMD Quark로 양자화된 FP8 Eagle3 드래프트는 BF16 버전을 약간 능가합니다. 동시성 4에서 최대 2.00배의 1.76배~2.00배를 달성했습니다.

BF16 Eagle3 드래프트 모델의 MiniMax-M2.5는 동일한 MI355X 하드웨어에서 동일한 동시성 수준에 걸쳐 1.38배~1.79배의 처리량 계수를 달성합니다. 동시성이 낮을수록 속도 향상이 증가하는데, 이는 투기적 디코딩의 이론적 동작과 일치합니다. 동시성이 낮을 때 배치 검증은 순방향 패스 비용에 비해 상대적으로 더 큰 절감을 제공합니다.

AMD Quark와 KV-캐시 비호환성 해결

이 연구의 핵심 기여는 단순히 AMD 하드웨어에 Eagle3를 적용하는 것이 아니라 근본적인 기술적 장벽의 해결입니다. vLLM AITER MLA 백엔드와 Eagle3 투기적 디코딩은 성능 저하 없이 동시에 활성화할 수 없게 만드는 KV-캐시 블록 크기 파라미터 비호환성이 있었습니다. AITER MLA는 긴 컨텍스트에서 어텐션 효율성을 가져오고, Eagle3는 순차적 토큰 생성을 가속화합니다. 이 조합은 이론적으로 이상적이지만 기술적으로 차단되어 있었습니다.

AMD 엔지니어들이 이 비호환성을 해결하여 두 최적화가 구성에서 어떠한 타협도 없이 함께 작동할 수 있게 되었습니다. 프로덕션 구성은 특별한 우회 방법 없이 ROCm 스택, AITER MLA 백엔드를 갖춘 vLLM, Eagle3 드래프트 모델을 사용합니다.

AMD Quark 양자화 도구를 사용하여 Kimi-K2.5 Eagle3 드래프트 모델은 안정성을 위해 LM 헤드 레이어를 더 높은 정밀도로 유지하면서 FP8 정밀도로 양자화되었습니다. FP8 드래프트 모델은 GPU 메모리를 덜 차지할 뿐만 아니라 측정에서 BF16 버전을 약간 능가합니다. 이 결과는 이 맥락에서 FP8 드래프트 모델의 양자화 노이즈가 토큰 수락률을 저하시키지 않음을, 혹은 주어진 모델과 워크로드에 대해 통계적으로 중립임을 시사합니다. 모든 프로덕션 구성의 타겟 하드웨어는 AMD Instinct MI350X와 MI355X 가속기입니다. 이 연구는 Eagle3와 FP8 양자화의 조합이 속도와 품질 사이의 트레이드오프가 아니라 두 방면에서 동시에 개선됨을 보여줍니다. 드래프트 모델의 작은 메모리 풋프린트는 타겟 모델을 위한 더 많은 HBM 용량을 남기며, 투기적 디코딩은 생성된 토큰당 비용이 많이 드는 순방향 패스의 전체 수를 줄입니다.

AMD Eagle3과 Quark FP8: 투기적 디코딩으로 MI355X에서 최대 2.00배 처리량 달성

Eagle3는 어떻게 품질 손실 없이 추론을 가속화하나요?

AMD Instinct MI355X에서의 Kimi-K2.5와 MiniMax-M2.5

AMD Quark와 KV-캐시 비호환성 해결

자주 묻는 질문

출처

관련 뉴스