🟡 🔧 硬件 发布于: · 2 分钟阅读 ·

AMD:ROCm低延迟GEMM内核在Instinct MI355X上将LLM推理提速最高1.79倍

编辑插图:ROCm低延迟GEMM内核在Instinct MI355X上将LLM推理提速最高1.79倍,无文字无人脸

AMD在AITER框架(AI Tensor Engine for ROCm)中发布了FlyDSL系统,可自动生成专用GEMM内核,用于AMD GPU上LLM解码阶段。结果:平均延迟降低1.64倍,针对M≤8 token的最关键场景加速1.79倍,在配备256个计算单元的Instinct MI355X上测试。

🤖

本文由人工智能基于一手来源生成。

什么是GEMM与LLM解码阶段?

GEMM(通用矩阵乘法)是贯穿大型语言模型每次前向传播的基础计算操作。在预填充阶段,模型并行处理输入提示;但在解码阶段——逐token生成输出时——批量大小M通常很小:1、2、4、8或16行。正是这种不对称性(M小,但KN达到数千)使解码阶段成为关键瓶颈:为高吞吐量优化的标准GEMM例程在这里延迟表现欠佳。

AITER框架中FlyDSL的三大技术

AMD在ROCm生态系统中开发了AITER(AI Tensor Engine for ROCm),并在其中引入FlyDSL——一个自动合成专用GEMM内核的生成器。FlyDSL结合三项互补技术:

  1. CTA间Split-K并行化——沿K维度扩展启动网格,将工作分配到多个块(CTA),消除GPU资源闲置。
  2. CTA内K切片分割——在单个CTA内将K轴切分为更小片段,提高有效并行性而不增加同步开销。
  3. LDS流水线(多阶段)——将数据从全局内存传输到本地共享内存缓冲区(LDS)的过程与活跃计算重叠,隐藏AMD Instinct MI355X架构(gfx950,256个计算单元)的内存延迟。

结果与硬件:平均1.64倍,最关键场景1.79倍

基准测试在32个主要矩阵形状加48个变体上进行,来自真实生产模型——DeepSeek V3Llama 70BLlama 450BQwen32B——将FlyDSL内核与三个基线实现对比:HipblasLTAITER TritonAITER ASM。关键形状(K=7168)平均延迟降低1.64倍,解码关键场景M≤8 token加速达1.79倍。特定形状最大增益达2.37倍。在更广泛的生产模型BF16形状集上,平均为1.49倍

AMD能否通过程序化方法弥补软件差距?

FlyDSL和AITER是AMD对ROCm生态系统软件不足的系统性回应。NVIDIA的cuBLAS拥有多年先发优势,而AMD现在以程序化方式生成高性能内核——这意味着优化可以快速扩展到新GPU架构,无需手写汇编代码。对于考虑迁移到AMD Instinct基础设施的运营商而言,解码延迟的这一进步直接影响每个生成token的成本。

常见问题

什么是GEMM,为什么它对LLM推理至关重要?
GEMM(通用矩阵乘法)是LLM计算中占主导地位的操作,尤其在解码阶段——模型逐token生成输出,批量大小较小,如M=1、2、4或8。
AMD在哪些模型上测试了FlyDSL内核?
测试基于DeepSeek V3、Llama 70B、Llama 450B及Qwen32B模型的矩阵形状,在AMD Instinct MI355X GPU(架构gfx950,256个计算单元)上进行。