AMD ROCm GEMM内核：LLM推理延迟降低1.79倍

AMD在AITER框架（AI Tensor Engine for ROCm）中发布了FlyDSL系统，可自动生成专用GEMM内核，用于AMD GPU上LLM解码阶段。结果：平均延迟降低1.64倍，针对M≤8 token的最关键场景加速1.79倍，在配备256个计算单元的Instinct MI355X上测试。

什么是GEMM与LLM解码阶段？

GEMM（通用矩阵乘法）是贯穿大型语言模型每次前向传播的基础计算操作。在预填充阶段，模型并行处理输入提示；但在解码阶段——逐token生成输出时——批量大小M通常很小：1、2、4、8或16行。正是这种不对称性（M小，但K和N达到数千）使解码阶段成为关键瓶颈：为高吞吐量优化的标准GEMM例程在这里延迟表现欠佳。

AITER框架中FlyDSL的三大技术

AMD在ROCm生态系统中开发了AITER（AI Tensor Engine for ROCm），并在其中引入FlyDSL——一个自动合成专用GEMM内核的生成器。FlyDSL结合三项互补技术：

CTA间Split-K并行化——沿K维度扩展启动网格，将工作分配到多个块（CTA），消除GPU资源闲置。
CTA内K切片分割——在单个CTA内将K轴切分为更小片段，提高有效并行性而不增加同步开销。
LDS流水线（多阶段）——将数据从全局内存传输到本地共享内存缓冲区（LDS）的过程与活跃计算重叠，隐藏AMD Instinct MI355X架构（gfx950，256个计算单元）的内存延迟。

结果与硬件：平均1.64倍，最关键场景1.79倍

基准测试在32个主要矩阵形状加48个变体上进行，来自真实生产模型——DeepSeek V3、Llama 70B、Llama 450B及Qwen32B——将FlyDSL内核与三个基线实现对比：HipblasLT、AITER Triton和AITER ASM。关键形状（K=7168）平均延迟降低1.64倍，解码关键场景M≤8 token加速达1.79倍。特定形状最大增益达2.37倍。在更广泛的生产模型BF16形状集上，平均为1.49倍。

AMD能否通过程序化方法弥补软件差距？

FlyDSL和AITER是AMD对ROCm生态系统软件不足的系统性回应。NVIDIA的cuBLAS拥有多年先发优势，而AMD现在以程序化方式生成高性能内核——这意味着优化可以快速扩展到新GPU架构，无需手写汇编代码。对于考虑迁移到AMD Instinct基础设施的运营商而言，解码延迟的这一进步直接影响每个生成token的成本。

常见问题

什么是GEMM，为什么它对LLM推理至关重要？

GEMM（通用矩阵乘法）是LLM计算中占主导地位的操作，尤其在解码阶段——模型逐token生成输出，批量大小较小，如M=1、2、4或8。

AMD在哪些模型上测试了FlyDSL内核？

测试基于DeepSeek V3、Llama 70B、Llama 450B及Qwen32B模型的矩阵形状，在AMD Instinct MI355X GPU（架构gfx950，256个计算单元）上进行。

AMD：ROCm低延迟GEMM内核在Instinct MI355X上将LLM推理提速最高1.79倍

什么是GEMM与LLM解码阶段？

AITER框架中FlyDSL的三大技术

结果与硬件：平均1.64倍，最关键场景1.79倍

AMD能否通过程序化方法弥补软件差距？

常见问题

来源

相关新闻