AMD AgentKernelArena:AIエージェントのGPUカーネル最適化を測るオープンベンチマーク
AMD Researchは2026年7月3日、AIコーディングエージェントが実際のGPUカーネルをどの程度最適化できるかを測るオープンベンチマークフレームワーク「AgentKernelArena」を公開した。4カテゴリ214タスクのうち、AMDの独自エージェントGEAKv3(Claude Opus 4.6)がHIPカーネルで9.04倍の速度向上でトップ、Claude Code(Opus 4.6)が6.08倍で2位につけた。すべての実験はAMD Instinct MI300X上でROCm 7.1.1環境下で実施された。
この記事はAIにより一次情報源から生成されました。
AMD Researchは2026年7月3日、AIコーディングエージェントが実際のGPUカーネルをどの程度最適化できるかを測るオープンベンチマークフレームワークAgentKernelArenaを公開した。一般的なコーディングをテストする標準的なプログラミングベンチマークとは異なり、AgentKernelArenaの各タスクには具体的で測定可能な目標がある:エージェントは既存のGPUカーネルを受け取り、同一の数値結果をもたらすより高速なバージョンを記述しなければならない。GPUカーネルの最適化はAIシステム開発における重要な要素であり、オペレーターのパフォーマンスの違いはモデルトレーニングコストと本番推論システムのレイテンシーに直接影響する。このフレームワークはエージェントの標準化された再現可能な比較を目的としてオープンプロジェクトとして公開された。
AgentKernelArenaは何を測定し、スコアはどのように計算されますか?
総タスク数は214で、カーネル変換の種類に応じて4つのカテゴリに分類されている。Triton2tritonは148タスクを含み、エージェントが既存のTritonカーネルを最適化する能力を測定する。Hip2hipはHIPカーネル最適化に特化した36タスクを含む。Torch2hipはエージェントがPyTorch操作を同等のHIPカーネルに書き直す26タスクを含む。Repository-scaleカテゴリはコードリポジトリ全体の規模での作業をシミュレートする4タスクを含む。本論文で説明される評価には代表的なサブセットとして44タスクが使用された。
スコアリングは3段階構造を持つ。コンパイルは最大20点:カーネルはエラーなく構文的にコンパイルされなければならない。正確性は最大100点:最適化されたカーネルはすべてのテストケースで参照実装と同一の数値結果をもたらさなければならない。速度向上は最適化されたカーネルと元のカーネルの速度比として計算され、100を乗じる――速度向上係数が大きいほど高いスコアに貢献する。スコア構造は正確さだけでなく実際のパフォーマンス改善も意図的に評価する:正しく動作するが速度向上がゼロまたはパフォーマンスが低下するカーネルは、計算を実際に高速化するカーネルより低い総合スコアを得る。
AMD Instinct MI300X上でROCm 7.1.1環境下での6エージェント比較
エージェントフレームワークとバックエンド言語モデルの異なる組み合わせを持つ6構成のエージェントがテストされた。AMDの独自エージェントGEAKv3はClaude Opus 4.6と共に使用された。Cursor Agentは3つのモデルでテストされた:Claude Opus 4.6、GPT-5.3 Codex、Composer 2。Claude CodeはClaude Opus 4.6とClaude Sonnet 4.6でテストされた。すべてのエージェントに均等な条件が設定された:タスクごとに3,600秒の時間制限と最大3回のイテレーション。
すべての実験は192GB HBM3メモリを搭載したAMD Instinct MI300X GPU上でROCm 7.1.1 PyTorchコンテナ(rocm/pytorch:rocm7.1.1_ubuntu24.04_py3.12_pytorch_release_2.10.0)内で実施された。MI300XはAMDアーキテクチャにおける要求の高いAI推論およびトレーニングワークロードの本番標準として選定された参照ハードウェアプラットフォームだ。
GEAKv3がトップ、Claude CodeがHIPカーネルで2位
GEAKv3(Claude Opus 4.6)はすべてのカテゴリで圧倒的な1位を達成した:hip2hipタスクで9.04×、triton2tritonで2.75×、rocPRIMリポジトリタスクで**1.20×**の平均速度向上。AMDの独自エージェントの優位性はHIPカーネル変換で特に顕著で、2位にほぼ2倍の差をつけた。
標準的なフロンティアエージェントの中では、**Claude Code(Claude Opus 4.6)がhip2hipカテゴリで6.08×の速度向上で2位につけた。Claude Opus 4.6を使用したCursor Agentが5.03×で3位。GPT-5.3 Codexを使用した構成は3.06×を達成し、Composer 2を使用したCursorは1.34×**にとどまった――最適化されていない参照カーネルをわずかに上回るだけだ。
triton2tritonタスクでは順位が変わり、差は大幅に縮まった:Cursor(Opus 4.6)とClaude Code(Opus 4.6)はそれぞれ**1.96×と1.95×**でほぼ同率だ。GPT-5.3 Codex(0.99×)とComposer 2(0.98×)を使用した構成からは懸念される結果が出ており、これらのモデルはこれらの条件下でカーネルのパフォーマンスを向上させるのではなく、積極的に低下させていることを意味する。
AgentKernelArenaはオープンプロジェクトとして公開され、すべてのタスクと評価インフラストラクチャが研究・開発コミュニティに利用可能だ。著者――Sharareh Younesian、Wenwen Ouyang、Sinu Rafati、Mehdija Rezagholizadeh、Sharon Zhou、Vikrama Appiu、Zhenyua Gu、Emad Barsoumを含むAMD Researchチーム――はコミュニティにタスクコレクションの拡充と新しいエージェント構成のテストを呼びかけている。
よくある質問
- AgentKernelArenaは何を測定し、標準的なベンチマークとどう違いますか?
- AgentKernelArenaはGPUカーネル最適化タスクにおけるAIコーディングエージェントを測定します。具体的には、結果の正確性を維持しながらTritonまたはHIPカーネルをどれだけ高速化できるかを評価します。抽象的なプログラミングテストとは異なり、各タスクは本番環境の計算ワークロードに直接関連した測定可能な目標を持ちます。
- HIPカーネルタスクで最高の結果を出したエージェントはどれですか?
- GEAKv3(AMDの独自エージェント、Claude Opus 4.6使用)がhip2hipカテゴリで平均9.04倍の速度向上を達成してトップとなりました。Claude Code(Claude Opus 4.6)が6.08倍で2位、Cursor Agent(Claude Opus 4.6)が5.03倍で3位です。
- エージェントのテストに使用されたハードウェアプラットフォームはどれですか?
- すべての実験は192GB HBM3メモリを搭載したAMD Instinct MI300X GPUで、ROCm 7.1.1 PyTorchコンテナ内で実施されました。各エージェントにはタスクごとに3600秒の時間制限と最大3回のイテレーションが設定されました。