🤖 24 AI
🟡 🔧 硬件 2026年4月16日星期四 · 2 分钟阅读

AWS:Trainium芯片上的推测解码将LLM推理速度提升至3倍

为什么重要

亚马逊云服务(AWS)发布了在AWS Trainium芯片上结合vLLM框架实现推测解码的详细方案,对于解码密集型工作负载实现了高达3倍的令牌生成速度提升。该技术使用较小的草稿模型预测下N个令牌,而较大的目标模型在单次前向传播中一次性验证所有令牌,消除了顺序生成的瓶颈。

亚马逊云服务发布了在其自有Trainium芯片上实现推测解码的详细方案,展示了对于需要密集解码的工作负载,令牌生成速度可提升高达三倍。与vLLM框架的集成使这项技术可用于生产部署。

推测解码如何加速文本生成?

标准LLM推理在每次模型前向传播中生成一个令牌——这是一个对于长响应来说本质上很慢的顺序过程。推测解码(投机式解码)采用两个模型的不同方法:较小、较快的草稿模型预测下N个令牌,而较大、更精确的目标模型在单次前向传播中一次性验证所有令牌。

如果草稿模型预测正确——对于可预测的文本模式,这在很大比例的情况下会发生——系统在相同时间内生成N个令牌而不是一个。当草稿模型出错时,目标模型丢弃错误令牌并从最后一个正确的令牌继续。结果在质量上与大模型相同,但速度显著更快。

为什么Trainium平台对这种方法很重要?

AWS Trainium是亚马逊专为机器学习设计的定制芯片,专注于更低成本,作为NVIDIA GPU的替代品。在Trainium上实现推测解码表明该技术不局限于NVIDIA生态系统——对于希望避免依赖单一硬件供应商的组织来说,这很重要。

与vLLM的结合——目前最流行的LLM服务开源框架——使解决方案切实可行。用户无需编写自己的推理代码;推测解码通过vLLM配置激活,Trainium NeuronX运行时负责协调草稿模型和目标模型。

加速效果在哪里最为显著?

结构化输出中具有可预测模式的场景获得最大改善——代码生成、JSON响应、模板化电子邮件或报告。在这些场景中,草稿模型正确预测更高比例的令牌,最大化加速效果。

对于创意写作或复杂推理,下一个令牌较难预测,加速效果较小——但与标准顺序方法相比仍然显著。

🤖

本文由人工智能基于一手来源生成。