PyTorch:TokenSpeed-Kernel——适用于多硅LLM推理的可移植高性能内核
TokenSpeed-Kernel是一个开源三层内核子系统,无需重写代码即可将NVIDIA和AMD GPU上的LLM推理加速高达3.6倍,已集成到vLLM推理框架中。
本文由人工智能基于一手来源生成。
什么是TokenSpeed-Kernel,为何重要?
TokenSpeed-Kernel是一个三层开源内核子系统——一组直接管理LLM模型计算的低级GPU程序——设计为在英伟达和AMD硅上无需重写代码即可同样高效运行。PyTorch团队将其发布为对长期问题的回应:高性能内核与单一芯片制造商绑定,使LLM系统向替代硬件的移植变得困难。
实际加速效果如何?
在AMD MI355X GPU上运行GPT-OSS 120B模型的测量显示,与Triton(迄今为止的标准PyTorch内核框架)相比,每个推理阶段都有显著提升:
- 注意力预填充(输入文本处理阶段):比Triton快1.4–2.3倍
- MoE解码——MoE(专家混合)是一种每个词元只激活部分参数的架构——快1.7–2.1倍
- 端到端吞吐量(系统总体吞吐量):提升1.6–3.6倍
3.6倍的加速上限并非边际优化——这意味着同样的硬件每小时可以服务更多用户请求,或者以数倍速度生成响应。
三层方法如何运作?
TokenSpeed-Kernel将代码分为三层:独立于硬件的公共接口、英伟达专用后端和AMD专用后端。当程序员调用注意力操作或MoE传递时,系统自动选择适合检测到的GPU的正确后端,用户端无需任何额外代码。
@register_kernel插件机制还允许公司或研究人员通过集成到同一系统来添加对自己的非标准硅架构的支持。
集成与可用性
TokenSpeed-Kernel作为标准Python包(pip install)提供,并已通过PR #46742集成到vLLM——vLLM是数百个生产系统使用的最广泛的开源LLM服务框架之一。vLLM用户无需更改自己的配置即可自动受益于加速。
更广泛的图景:单芯垄断的终结?
此前,高性能内核实际上是英伟达生态系统的专属领地,因为它们是为不能在AMD硬件上运行的CUDA平台编写的。TokenSpeed-Kernel改变了这一动态:推理系统现在可以在英伟达和AMD GPU之间透明切换,同时使用相同代码,这增加了AI加速器市场的竞争,并降低了LLM生产基础设施对单一供应商的依赖风险。
常见问题
- GPU推理中的内核是什么?
- GPU内核是在图形处理器上运行并直接管理矩阵和注意力计算的低级程序——内核速度直接决定模型每秒生成的词元数量。
- TokenSpeed-Kernel只适用于英伟达GPU吗?
- 不——TokenSpeed-Kernel采用多硅方法设计,为英伟达和AMD GPU提供独立后端,@register_kernel插件系统允许在不更改公共代码的情况下添加对新架构的支持。