🟡 🔧 硬件 2026年5月6日星期三 · 1 分钟阅读 ·

AMD: FarSkip-Collective 将 AMD GPU 上的 MoE 推理速度提升 18–34%

编辑插图:AMD GPU 之间的 MoE 推理中无空闲块的并行数据流

AMD ROCm 团队推出了 FarSkip-Collective,这是一种改进的 MoE 架构,可消除专家并行通信期间的 GPU 空闲时间。结果:Llama-4 Scout 的 TTFT 减少 18%,DeepSeek-V3 速度提升最高 1.34×,Moonlight 预训练阶段加速 11%。

🤖

本文由人工智能基于一手来源生成。

AMD 发布了什么?

AMD ROCm 团队推出了 FarSkip-Collective,这是一种改进的 MoE(专家混合)架构,解决了专家并行通信期间 GPU 空闲的问题。该解决方案利用”已可用的部分或过时激活状态”来启动下一层,同时通信并行进行,从而消除阻塞性同步气泡。

什么是 MoE 和专家并行?

MoE 是一种架构,其中每个 token 只激活”专家”(专门子网络)的一部分,而不是整个模型。专家并行是将这些专家分布在多个 GPU 上的策略,这需要 GPU 卡之间相互通信。

TTFT(Time to First Token,首个 token 生成时间)是从用户查询到第一个输出 token 的延迟——这是交互式 LLM 应用的关键指标。

推理速度提升了多少?

AMD 在 ROCm 平台上报告了具体结果:

  • Llama-4 Scout 的 TTFT 减少 18%
  • DeepSeek-V3(6710 亿参数)速度最高提升 1.34×
  • Moonlight 模型的预训练阶段加速 11%
  • 与 Grouped-Query-Attention 技术结合使用时额外加速 16%

结果在 AMD Instinct GPU 上测量,该方法不改变 MoE 结果——相对于标准基线模型,精度保持不变。

为什么重叠很重要?

在传统的专家并行方案中,GPU 必须等待上一层完成激活交换后才能启动下一层。这产生了”气泡”——计算单元空闲的时间。

FarSkip-Collective 将这种通信与下一层的计算重叠,因此 GPU 很少需要等待。结果是在不增加新成本的情况下提高了平均硬件利用率。

常见问题

什么是 MoE 架构?
专家混合(Mixture of Experts)是一种架构,其中每个 token 只激活专门子网络(专家)的一个子集,而不是整个模型,从而降低计算成本。
DeepSeek-V3 能获得多大的加速?
6710 亿参数的 DeepSeek-V3 模型推理执行速度最高提升 1.34 倍。
模型精度会受到影响吗?
不会。AMD 表示相对于标准 MoE 基线模型,精度保持不变。