AgentKernelArena测量什么，与标准基准测试有何不同？

AgentKernelArena在GPU内核优化任务上评测AI编程代理——具体而言，是在保持结果正确性的前提下加速Triton或HIP内核的能力。与抽象编程测试不同，每个任务都有与生产计算环境直接相关的可量化目标。

哪个代理在HIP内核任务上取得了最佳成绩？

GEAKv3（AMD自研代理，使用Claude Opus 4.6）以hip2hip类别平均9.04倍加速领先。Claude Code（Claude Opus 4.6）以6.08倍位居第二，Cursor Agent（Claude Opus 4.6）以5.03倍位居第三。

代理测试使用了哪个硬件平台？

所有实验均在配备192 GB HBM3显存的AMD Instinct MI300X GPU上进行，运行于ROCm 7.1.1 PyTorch容器中。每个代理每个任务有3600秒时间限制，最多3次迭代。

AMD AgentKernelArena：GPU优化基准测试

AMD Research于2026年7月3日发布了开放基准测试框架AgentKernelArena，用于衡量AI编程代理优化真实GPU内核的能力。在四个类别共214个任务中，AMD自研的GEAKv3（Claude Opus 4.6）以9.04倍加速在HIP内核上领先，Claude Code（Opus 4.6）以6.08倍位居第二。所有实验均在ROCm 7.1.1环境下的AMD Instinct MI300X上进行。

AMD Research于2026年7月3日发布了开放基准测试框架AgentKernelArena，用于衡量AI编程代理优化真实GPU内核的能力。与测试通用编码能力的标准编程基准测试不同，AgentKernelArena中的每个任务都有具体可量化的目标：代理必须接收一个现有GPU内核，并编写一个产生相同数值结果的更快版本。GPU内核优化是AI系统开发的关键环节——算子性能差异直接影响模型训练成本和生产推理系统的延迟。该框架旨在提供标准化、可重现的代理比较，已作为开放项目发布。

AgentKernelArena测量什么，结果如何评分？

总任务集包含214个任务，按内核转换类型分为四个类别。Triton2triton包含148个任务，衡量代理优化现有Triton内核的能力。Hip2hip包含36个任务，专注于HIP内核优化。Torch2hip包含26个任务，代理需将PyTorch操作重写为等效HIP内核。Repository-scale类别包含4个任务，模拟整个代码仓库级别的工作。本文评估使用了具有代表性的44个任务子集。

评分为三级制。编译最高得20分：内核必须在无语法错误的情况下编译通过。正确性最高得100分：优化后的内核必须在所有测试用例上与参考实现产生相同的数值结果。加速比计算为优化内核与原始内核速度之比，乘以100——加速系数越高，对总分的贡献越大。评分结构有意奖励正确性和实际性能提升：正确运行但零加速甚至降低性能的内核，总分低于实际加速计算的内核。

六个代理在ROCm 7.1.1 AMD Instinct MI300X上的测试

测试了六种代理配置，使用不同的代理框架和基础语言模型组合。AMD自研代理GEAKv3使用Claude Opus 4.6。Cursor Agent使用三种模型测试：Claude Opus 4.6、GPT-5.3 Codex和Composer 2。Claude Code使用Claude Opus 4.6和Claude Sonnet 4.6测试。所有代理设置相同条件：每个任务3600秒时间限制，每次尝试最多3次迭代。

所有实验在配备192 GB HBM3显存的AMD Instinct MI300X GPU上进行，运行于ROCm 7.1.1 PyTorch容器（rocm/pytorch:rocm7.1.1_ubuntu24.04_py3.12_pytorch_release_2.10.0）。MI300X被选为参考硬件平台，因为它代表了AMD架构上要求最高的AI推理和训练工作负载的生产标准。

GEAKv3领先，Claude Code在HIP内核上位居第二

GEAKv3（Claude Opus 4.6）在所有类别中均取得最佳成绩：hip2hip任务平均加速比9.04×，triton2triton任务2.75×，rocPRIM仓库任务1.20×。AMD自研代理的优势在HIP内核转换方面尤为突出，以近两倍的差距领先第二名。

在标准前沿代理中，Claude Code（Claude Opus 4.6）在hip2hip类别以6.08×加速比位居第二。使用Claude Opus 4.6的Cursor Agent以5.03×位居第三。GPT-5.3 Codex配置实现3.06×，使用Composer 2的Cursor为1.34×——仅略高于未优化的参考内核。

在triton2triton任务上，排名发生变化，差异也显著缩小：Cursor（Opus 4.6）和Claude Code（Opus 4.6）几乎持平，分别为1.96×和1.95×。令人担忧的发现来自GPT-5.3 Codex（0.99×）和Composer 2（0.98×）配置，这些模型在这些条件下低于参考基线——意味着它们在这些条件下实际上降低了内核性能而非提升。

AgentKernelArena已作为开放项目发布，所有任务和评估基础设施均可供研究和开发社区使用。作者——AMD Research团队，包括Sharareh Younesian、Wenwen Ouyang、Sinu Rafati、Mehdija Rezagholizadeh、Sharon Zhou、Vikrama Appiu、Zhenyua Gu和Emad Barsoum——邀请社区扩展任务集并测试新的代理配置。

AMD AgentKernelArena：针对GPU内核优化的AI代理开放基准测试框架

AgentKernelArena测量什么，结果如何评分？

六个代理在ROCm 7.1.1 AMD Instinct MI300X上的测试

GEAKv3领先，Claude Code在HIP内核上位居第二

常见问题

来源

相关新闻