AWS P-EAGLE：解码速度最高提升3.97倍

AWS推出了P-EAGLE，一种在单次模型前向传播中预测所有推测令牌的并行推测解码方法。在Qwen3-Coder-30B-A3B和NVIDIA B200 FP8精度下，P-EAGLE达到每秒1167个令牌，而EAGLE-3为955个（提升22%），在HumanEval上比基线推理最高快3.97倍。预训练的P-EAGLE头已在Amazon SageMaker AI上为GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B和Gemma-4-31B提供支持。

AWS推出了P-EAGLE，一种并行推测解码方法，可大幅加速Amazon SageMaker AI上大型语言模型的推理速度。

什么是推测解码，P-EAGLE做了哪些改进？

推测解码是一种技术，小型”提议模型”预先生成多个令牌，主模型同时验证所有令牌，而非逐个处理。传统的EAGLE采用顺序方式。P-EAGLE利用学习到的保留表示（占位符），在单次模型前向传播中预测所有推测令牌，从而消除了顺序瓶颈。

P-EAGLE速度有多快？

在Qwen3-Coder-30B-A3B模型、NVIDIA B200 GPU和FP8精度下，P-EAGLE在HumanEval上达到每秒1167个令牌，而EAGLE-3为955个——提升22%。与每秒294个令牌的基线相比，在HumanEval上加速达3.97倍，在SPEED-Bench上达2.97倍。这些是代码生成任务的实际收益。

如何在实践中使用？

AWS提供适用于GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B和Gemma-4-31B的预训练P-EAGLE头，可在Amazon SageMaker AI上使用。开发团队无需自行训练提议模型即可加速推理，这对于降低生产环境中的成本和延迟至关重要。

常见问题

什么是推测解码？

一种推理加速技术，小型模型一次性提出多个令牌，主模型在单次前向传播中同时验证。

P-EAGLE能将推理速度提升多少？

在HumanEval上比基线推理最高快3.97倍，比EAGLE-3快22%。

哪些模型提供了P-EAGLE头？

Amazon SageMaker AI上的GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B和Gemma-4-31B。

AWS：P-EAGLE并行推测解码将推理速度提升最高3.97倍

什么是推测解码，P-EAGLE做了哪些改进？

P-EAGLE速度有多快？

如何在实践中使用？

常见问题

来源

相关新闻