AMD Primus Projection：启动前预测LLM训练

AMD Primus Projection是一款在Instinct GPU集群上启动LLM训练前预测内存需求和吞吐量的工具。它结合分析公式与真实GPU基准测试，在MI325X和MI355X加速器上针对Llama和Mixtral模型的预测误差约在10%以内。

AMD在其ROCm博客上推出了Primus Projection——一款在ML工程师花费数小时集群时间之前回答两个实际问题的工具：“模型能放入内存吗？“以及”训练速度会有多快？“。该工具专门针对AMD Instinct GPU加速器，并与现有ROCm技术栈集成。

该工具具体计算什么？

Primus Projection结合分析公式和真实GPU基准测试来评估每次训练的两个关键组成部分。内存方面分为三个部分：BF16格式的模型参数、优化器状态（FP32主权重加Adam一阶/二阶动量，按数据并行维度分片），以及激活值——管道为反向传播必须保留的中间结果，按微批次数量和MoE路由因子缩放。

对于速度预测，该工具提供两种互补方法。它可以在可用硬件上对代表性层进行基准测试（甚至只需单个GPU），然后通过移除并行化维度分析外推至完整集群——流水线 → 专家 → 张量并行。或者，可以通过GEMM和注意力分析建模进行纯CPU模拟，在GPU不可用时非常有用。

特别值得关注的是对通信建模的支持：具有拓扑感知的AllReduce、All-to-All和P2P集合体，以及1F1B、交错和零气泡等流水线调度，能精确计算GPU空闲的”气泡”时间。

预测的准确度如何？

根据AMD的数据，预测结果在实际多节点测量结果的约10%误差范围内。验证在Llama等密集模型和Mixtral等MoE架构上进行，测试硬件为MI325X和MI355X加速器——AMD最新的Instinct芯片。

这种精度的实际价值是具体的：如果工程师估计在512个GPU上需要72小时的训练时间，10%的误差意味着约65至79小时的范围——足以用于规划、预算和合理的集群时间预留。

这款工具面向谁？

主要受众是在AMD基础设施上工作的ML工程师和研究团队——无论是本地Instinct集群还是从云合作伙伴租用算力。该工具消除了”盲目”运行实验的实际障碍，这种障碍多年来一直有利于拥有无限预算进行”试错”的团队。

更广泛的信息是，AMD正在持续完善ROCm周边的软件生态系统——这历来是其相对于Nvidia CUDA世界的弱点。Primus Projection等工具，加上Hugging Face和PyTorch对ROCm越来越多的支持，正在逐渐降低考虑以AMD为替代方案的团队的”切换成本”。

常见问题

Primus Projection具体预测什么？

两件事：首先，每个GPU的内存（BF16格式的模型参数、FP32格式的优化器状态（含Adam动量）以及反向传播所需的激活值）。其次，训练速度——可在真实GPU上进行基准测试，也可通过GEMM和注意力建模进行CPU分析模拟。

预测的准确度如何？

根据AMD的数据，预测结果在实际多节点测试结果的约10%误差范围内。已在密集模型（Llama）和MoE架构（Mixtral）上，使用MI325X和MI355X GPU进行了验证。

AMD Primus Projection：在Instinct GPU集群上启动LLM训练前预测内存和速度的工具

该工具具体计算什么？

预测的准确度如何？

这款工具面向谁？

常见问题

来源

相关新闻