AMD: FarSkip-Collective 将 AMD GPU 上的 MoE 推理速度提升 18–34%
AMD ROCm 团队推出了 FarSkip-Collective,这是一种改进的 MoE 架构,可消除专家并行通信期间的 GPU 空闲时间。结果:Llama-4 Scout 的 TTFT 减少 18%,DeepSeek-V3 速度提升最高 1.34×,Moonlight 预训练阶段加速 11%。
本文由人工智能基于一手来源生成。
AMD 发布了什么?
AMD ROCm 团队推出了 FarSkip-Collective,这是一种改进的 MoE(专家混合)架构,解决了专家并行通信期间 GPU 空闲的问题。该解决方案利用”已可用的部分或过时激活状态”来启动下一层,同时通信并行进行,从而消除阻塞性同步气泡。
什么是 MoE 和专家并行?
MoE 是一种架构,其中每个 token 只激活”专家”(专门子网络)的一部分,而不是整个模型。专家并行是将这些专家分布在多个 GPU 上的策略,这需要 GPU 卡之间相互通信。
TTFT(Time to First Token,首个 token 生成时间)是从用户查询到第一个输出 token 的延迟——这是交互式 LLM 应用的关键指标。
推理速度提升了多少?
AMD 在 ROCm 平台上报告了具体结果:
- Llama-4 Scout 的 TTFT 减少 18%
- DeepSeek-V3(6710 亿参数)速度最高提升 1.34×
- Moonlight 模型的预训练阶段加速 11%
- 与 Grouped-Query-Attention 技术结合使用时额外加速 16%
结果在 AMD Instinct GPU 上测量,该方法不改变 MoE 结果——相对于标准基线模型,精度保持不变。
为什么重叠很重要?
在传统的专家并行方案中,GPU 必须等待上一层完成激活交换后才能启动下一层。这产生了”气泡”——计算单元空闲的时间。
FarSkip-Collective 将这种通信与下一层的计算重叠,因此 GPU 很少需要等待。结果是在不增加新成本的情况下提高了平均硬件利用率。
常见问题
- 什么是 MoE 架构?
- 专家混合(Mixture of Experts)是一种架构,其中每个 token 只激活专门子网络(专家)的一个子集,而不是整个模型,从而降低计算成本。
- DeepSeek-V3 能获得多大的加速?
- 6710 亿参数的 DeepSeek-V3 模型推理执行速度最高提升 1.34 倍。
- 模型精度会受到影响吗?
- 不会。AMD 表示相对于标准 MoE 基线模型,精度保持不变。