🟡 🤖 模型 发布于: · 1 分钟阅读 ·

AWS:P-EAGLE并行推测解码将推理速度提升最高3.97倍

编辑配图:AI推理中加速并行令牌解码

AWS推出了P-EAGLE,一种在单次模型前向传播中预测所有推测令牌的并行推测解码方法。在Qwen3-Coder-30B-A3B和NVIDIA B200 FP8精度下,P-EAGLE达到每秒1167个令牌,而EAGLE-3为955个(提升22%),在HumanEval上比基线推理最高快3.97倍。预训练的P-EAGLE头已在Amazon SageMaker AI上为GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B和Gemma-4-31B提供支持。

🤖

本文由人工智能基于一手来源生成。

AWS推出了P-EAGLE,一种并行推测解码方法,可大幅加速Amazon SageMaker AI上大型语言模型的推理速度。

什么是推测解码,P-EAGLE做了哪些改进?

推测解码是一种技术,小型”提议模型”预先生成多个令牌,主模型同时验证所有令牌,而非逐个处理。传统的EAGLE采用顺序方式。P-EAGLE利用学习到的保留表示(占位符),在单次模型前向传播中预测所有推测令牌,从而消除了顺序瓶颈。

P-EAGLE速度有多快?

Qwen3-Coder-30B-A3B模型、NVIDIA B200 GPU和FP8精度下,P-EAGLE在HumanEval上达到每秒1167个令牌,而EAGLE-3为955个——提升22%。与每秒294个令牌的基线相比,在HumanEval上加速达3.97倍,在SPEED-Bench上达2.97倍。这些是代码生成任务的实际收益。

如何在实践中使用?

AWS提供适用于GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B和Gemma-4-31B的预训练P-EAGLE头,可在Amazon SageMaker AI上使用。开发团队无需自行训练提议模型即可加速推理,这对于降低生产环境中的成本和延迟至关重要。

常见问题

什么是推测解码?
一种推理加速技术,小型模型一次性提出多个令牌,主模型在单次前向传播中同时验证。
P-EAGLE能将推理速度提升多少?
在HumanEval上比基线推理最高快3.97倍,比EAGLE-3快22%。
哪些模型提供了P-EAGLE头?
Amazon SageMaker AI上的GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B和Gemma-4-31B。