PyTorch：LLM加速GPU内核自动调优（2026年6月）

PyTorch核心团队发布了针对Helion内核的LLM引导自动调优方案，将GPU代码优化时间从分钟缩短至秒级。大型语言模型取代穷举搜索，智能引导内核参数空间的搜索过程。

PyTorch的Helion获得LLM引导自动调优

内核——在GPU上直接执行数学运算的低级优化代码——是每项AI操作的核心，从矩阵乘法到注意力机制。PyTorch用于编写此类内核的DSL（领域特定语言）Helion，曾受限于寻找最优配置的缓慢过程。自动调优——自动寻找最快代码版本——传统上依赖穷举搜索：尝试所有可能的参数组合，这可能耗费数小时。

PyTorch核心团队提出的方案将这一过程从分钟缩短至秒级。大型语言模型引导内核配置空间的搜索，而非进行穷举搜索。LLM分析内核特征并推荐最有潜力的配置，跳过数千种注定产生不良结果的组合。这是盲目测试与知情选择之间的差别。

对于编写或优化ML代码的工程师来说，从分钟缩短至秒级不只是便利——这是工作流程的变革。等待被取代，内核优化变得具有交互性。PyTorch核心团队将这项工作作为让Helion成为性能可移植ML开发标准工具这一更宏大努力的一部分公布于众。

常见问题

Helion在PyTorch背景下是什么？

Helion是PyTorch用于编写性能可移植ML内核的DSL（领域特定语言），可在不同GPU架构上高效运行。

为何自动调优对ML至关重要？

每个GPU内核都可以以多种方式运行——自动调优自动寻找最快配置，无需程序员手动测试每种变体。