arXiv:2606.26758: EGG——多代理框架生成GPU内核比PyTorch快2.13倍
EGG是一个自动生成LLM推理优化GPU内核的多代理框架。通过两阶段方法——算法结构设计加硬件调优——实现了相对PyTorch基准平均2.13倍的加速,在KernelBench上超越了代理方法和基于强化学习的方法。
本文由人工智能基于一手来源生成。
为什么手动编写GPU内核不再具有可扩展性
GPU内核——直接控制显卡并行计算的底层代码——对LLM推理的速度和成本至关重要。编写高度优化的内核传统上需要深厚的硬件知识和数周的工程工作。EGG(专家引导代理内核生成框架)由Han Yaochen等人于2026年6月25日提交,提供了一条自动化路径:将专家知识与LLM代码生成相结合的多代理系统。
两阶段方法如何运作?
EGG将问题分解为两个明确分离的步骤。第一步,代理设计算法结构——定义数学运算和计算图。第二步,专业代理进行硬件特定调优:线程并行映射、张量分块(将数据排列成矩阵块以提高内存访问效率)以及针对特定GPU的内存访问优化。两个阶段之间,多代理机制传递上下文,使每个代理以完整的先前解决方案视图运行,而非孤立工作。
结果:比PyTorch快2.13倍,超越RL方法
在KernelBench——自动生成GPU内核评估的标准任务集——上,EGG实现了相对PyTorch基准平均2.13倍的加速。这一可测量的提升既高于不使用专家引导的基于代理的竞争对手,也高于使用强化学习进行内核优化的方法。RL方法通过试错学习;而EGG则将专家规则直接嵌入代理指令,从而缩小搜索空间并加速向正确高效解的收敛。
对LLM部署的实际影响
更快的内核直接转化为生产LLM系统更低的推理成本和更短的响应时间。如果EGG在研究基准之外得到应用,自行部署模型的团队或许能够自动化当前消耗最多工程时间的优化部分——无需硬件优化专家。
常见问题
- 什么是GPU内核,为什么它对AI很重要?
- GPU内核是直接控制显卡计算的底层代码——决定模型处理数据的速度。内核越慢,LLM推理就越昂贵越缓慢。
- EGG如何超越基于强化学习的方法?
- RL方法通过试错学习,缺乏领域知识;而EGG将专家规则嵌入每个步骤的代理指令中,每个代理在经过验证的启发式约束范围内运行,而不是盲目探索解空间。