AMD FarSkip-Collective：MoE 推理速度提升 1.34× （2026年5月）

AMD ROCm 团队推出了 FarSkip-Collective，这是一种改进的 MoE 架构，可消除专家并行通信期间的 GPU 空闲时间。结果：Llama-4 Scout 的 TTFT 减少 18%，DeepSeek-V3 速度提升最高 1.34×，Moonlight 预训练阶段加速 11%。

AMD 发布了什么？

AMD ROCm 团队推出了 FarSkip-Collective，这是一种改进的 MoE（专家混合）架构，解决了专家并行通信期间 GPU 空闲的问题。该解决方案利用”已可用的部分或过时激活状态”来启动下一层，同时通信并行进行，从而消除阻塞性同步气泡。

MoE 是一种架构，其中每个 token 只激活”专家”（专门子网络）的一部分，而不是整个模型。专家并行是将这些专家分布在多个 GPU 上的策略，这需要 GPU 卡之间相互通信。

TTFT（Time to First Token，首个 token 生成时间）是从用户查询到第一个输出 token 的延迟——这是交互式 LLM 应用的关键指标。

AMD 在 ROCm 平台上报告了具体结果：

结果在 AMD Instinct GPU 上测量，该方法不改变 MoE 结果——相对于标准基线模型，精度保持不变。

在传统的专家并行方案中，GPU 必须等待上一层完成激活交换后才能启动下一层。这产生了”气泡”——计算单元空闲的时间。

FarSkip-Collective 将这种通信与下一层的计算重叠，因此 GPU 很少需要等待。结果是在不增加新成本的情况下提高了平均硬件利用率。

常见问题

什么是 MoE 架构？

专家混合（Mixture of Experts）是一种架构，其中每个 token 只激活专门子网络（专家）的一个子集，而不是整个模型，从而降低计算成本。

DeepSeek-V3 能获得多大的加速？

6710 亿参数的 DeepSeek-V3 模型推理执行速度最高提升 1.34 倍。

模型精度会受到影响吗？

不会。AMD 表示相对于标准 MoE 基线模型，精度保持不变。