🟡 🤖 모델 게시일: · 1 분 읽기 ·

AWS:P-EAGLE 병렬 추측 디코딩으로 추론 속도 최대 3.97배 향상

편집 일러스트:AI 추론에서 가속화된 병렬 토큰 디코딩

AWS가 P-EAGLE을 발표했습니다. 단일 모델 순전파에서 모든 추측 토큰을 예측하는 병렬 추측 디코딩 방법입니다. Qwen3-Coder-30B-A3B와 NVIDIA B200 FP8 정밀도에서 P-EAGLE은 HumanEval 기준 EAGLE-3의 955토큰/초 대비 1167토큰/초를 달성(+22%)하며, 기준 추론 대비 최대 3.97배 빠릅니다. 사전 학습된 P-EAGLE 헤드는 Amazon SageMaker AI에서 GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B, Gemma-4-31B에 사용 가능합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

AWS가 Amazon SageMaker AI에서 대형 언어 모델의 추론을 크게 가속화하는 병렬 추측 디코딩 방법인 P-EAGLE을 발표했습니다.

추측 디코딩이란 무엇이며 P-EAGLE은 무엇을 바꿉니까?

추측 디코딩은 소형 “제안 모델”이 여러 토큰을 미리 생성하고, 메인 모델이 토큰 하나씩이 아닌 한꺼번에 검증하는 기법입니다. 기존 EAGLE은 이를 순차적으로 수행했습니다. P-EAGLE은 학습된 예약 표현(플레이스홀더)을 사용하여 단일 모델 순전파에서 모든 추측 토큰을 예측함으로써 순차적 병목을 제거합니다.

P-EAGLE은 얼마나 빠릅니까?

Qwen3-Coder-30B-A3B 모델, NVIDIA B200 GPU, FP8 정밀도에서 P-EAGLE은 HumanEval 기준 초당 1167개 토큰을 달성하며 EAGLE-3의 955개 대비 22% 향상됩니다. 초당 294개 토큰의 기준과 비교하면 HumanEval에서 최대 3.97배, SPEED-Bench에서 2.97배의 속도 향상이 나타납니다. 이는 코드 생성 작업에서의 실질적인 개선입니다.

실무에서 어떻게 사용합니까?

AWS는 GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B, Gemma-4-31B용 사전 학습된 P-EAGLE 헤드를 Amazon SageMaker AI에서 제공합니다. 개발팀은 자체 제안 모델 학습 없이도 추론을 가속화할 수 있으며, 이는 프로덕션 환경에서 비용과 레이턴시를 줄이는 데 핵심적입니다.

자주 묻는 질문

추측 디코딩이란 무엇입니까?
소형 모델이 여러 토큰을 미리 제안하고, 메인 모델이 단일 순전파에서 이를 한꺼번에 검증하는 추론 가속화 기법입니다.
P-EAGLE은 추론 속도를 얼마나 향상시킵니까?
HumanEval에서 기준 추론 대비 최대 3.97배 빠르고, EAGLE-3 대비 22% 빠릅니다.
P-EAGLE 헤드는 어떤 모델에 사용 가능합니까?
Amazon SageMaker AI의 GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B, Gemma-4-31B입니다.