AgentKernelArenaは何を測定し、標準的なベンチマークとどう違いますか？

AgentKernelArenaはGPUカーネル最適化タスクにおけるAIコーディングエージェントを測定します。具体的には、結果の正確性を維持しながらTritonまたはHIPカーネルをどれだけ高速化できるかを評価します。抽象的なプログラミングテストとは異なり、各タスクは本番環境の計算ワークロードに直接関連した測定可能な目標を持ちます。

HIPカーネルタスクで最高の結果を出したエージェントはどれですか？

GEAKv3（AMDの独自エージェント、Claude Opus 4.6使用）がhip2hipカテゴリで平均9.04倍の速度向上を達成してトップとなりました。Claude Code（Claude Opus 4.6）が6.08倍で2位、Cursor Agent（Claude Opus 4.6）が5.03倍で3位です。

エージェントのテストに使用されたハードウェアプラットフォームはどれですか？

すべての実験は192GB HBM3メモリを搭載したAMD Instinct MI300X GPUで、ROCm 7.1.1 PyTorchコンテナ内で実施されました。各エージェントにはタスクごとに3600秒の時間制限と最大3回のイテレーションが設定されました。

AMD AgentKernelArena：GPUカーネル最適化ベンチマーク

AMD Researchは2026年7月3日、AIコーディングエージェントが実際のGPUカーネルをどの程度最適化できるかを測るオープンベンチマークフレームワーク「AgentKernelArena」を公開した。4カテゴリ214タスクのうち、AMDの独自エージェントGEAKv3（Claude Opus 4.6）がHIPカーネルで9.04倍の速度向上でトップ、Claude Code（Opus 4.6）が6.08倍で2位につけた。すべての実験はAMD Instinct MI300X上でROCm 7.1.1環境下で実施された。

AMD Researchは2026年7月3日、AIコーディングエージェントが実際のGPUカーネルをどの程度最適化できるかを測るオープンベンチマークフレームワークAgentKernelArenaを公開した。一般的なコーディングをテストする標準的なプログラミングベンチマークとは異なり、AgentKernelArenaの各タスクには具体的で測定可能な目標がある：エージェントは既存のGPUカーネルを受け取り、同一の数値結果をもたらすより高速なバージョンを記述しなければならない。GPUカーネルの最適化はAIシステム開発における重要な要素であり、オペレーターのパフォーマンスの違いはモデルトレーニングコストと本番推論システムのレイテンシーに直接影響する。このフレームワークはエージェントの標準化された再現可能な比較を目的としてオープンプロジェクトとして公開された。

AgentKernelArenaは何を測定し、スコアはどのように計算されますか？

総タスク数は214で、カーネル変換の種類に応じて4つのカテゴリに分類されている。Triton2tritonは148タスクを含み、エージェントが既存のTritonカーネルを最適化する能力を測定する。Hip2hipはHIPカーネル最適化に特化した36タスクを含む。Torch2hipはエージェントがPyTorch操作を同等のHIPカーネルに書き直す26タスクを含む。Repository-scaleカテゴリはコードリポジトリ全体の規模での作業をシミュレートする4タスクを含む。本論文で説明される評価には代表的なサブセットとして44タスクが使用された。

スコアリングは3段階構造を持つ。コンパイルは最大20点：カーネルはエラーなく構文的にコンパイルされなければならない。正確性は最大100点：最適化されたカーネルはすべてのテストケースで参照実装と同一の数値結果をもたらさなければならない。速度向上は最適化されたカーネルと元のカーネルの速度比として計算され、100を乗じる――速度向上係数が大きいほど高いスコアに貢献する。スコア構造は正確さだけでなく実際のパフォーマンス改善も意図的に評価する：正しく動作するが速度向上がゼロまたはパフォーマンスが低下するカーネルは、計算を実際に高速化するカーネルより低い総合スコアを得る。

AMD Instinct MI300X上でROCm 7.1.1環境下での6エージェント比較

エージェントフレームワークとバックエンド言語モデルの異なる組み合わせを持つ6構成のエージェントがテストされた。AMDの独自エージェントGEAKv3はClaude Opus 4.6と共に使用された。Cursor Agentは3つのモデルでテストされた：Claude Opus 4.6、GPT-5.3 Codex、Composer 2。Claude CodeはClaude Opus 4.6とClaude Sonnet 4.6でテストされた。すべてのエージェントに均等な条件が設定された：タスクごとに3,600秒の時間制限と最大3回のイテレーション。

すべての実験は192GB HBM3メモリを搭載したAMD Instinct MI300X GPU上でROCm 7.1.1 PyTorchコンテナ（rocm/pytorch:rocm7.1.1_ubuntu24.04_py3.12_pytorch_release_2.10.0）内で実施された。MI300XはAMDアーキテクチャにおける要求の高いAI推論およびトレーニングワークロードの本番標準として選定された参照ハードウェアプラットフォームだ。

GEAKv3がトップ、Claude CodeがHIPカーネルで2位

GEAKv3（Claude Opus 4.6）はすべてのカテゴリで圧倒的な1位を達成した：hip2hipタスクで9.04×、triton2tritonで2.75×、rocPRIMリポジトリタスクで**1.20×**の平均速度向上。AMDの独自エージェントの優位性はHIPカーネル変換で特に顕著で、2位にほぼ2倍の差をつけた。

標準的なフロンティアエージェントの中では、**Claude Code（Claude Opus 4.6）がhip2hipカテゴリで6.08×の速度向上で2位につけた。Claude Opus 4.6を使用したCursor Agentが5.03×で3位。GPT-5.3 Codexを使用した構成は3.06×を達成し、Composer 2を使用したCursorは1.34×**にとどまった――最適化されていない参照カーネルをわずかに上回るだけだ。

triton2tritonタスクでは順位が変わり、差は大幅に縮まった：Cursor（Opus 4.6）とClaude Code（Opus 4.6）はそれぞれ**1.96×と1.95×**でほぼ同率だ。GPT-5.3 Codex（0.99×）とComposer 2（0.98×）を使用した構成からは懸念される結果が出ており、これらのモデルはこれらの条件下でカーネルのパフォーマンスを向上させるのではなく、積極的に低下させていることを意味する。

AgentKernelArenaはオープンプロジェクトとして公開され、すべてのタスクと評価インフラストラクチャが研究・開発コミュニティに利用可能だ。著者――Sharareh Younesian、Wenwen Ouyang、Sinu Rafati、Mehdija Rezagholizadeh、Sharon Zhou、Vikrama Appiu、Zhenyua Gu、Emad Barsoumを含むAMD Researchチーム――はコミュニティにタスクコレクションの拡充と新しいエージェント構成のテストを呼びかけている。

AMD AgentKernelArena：AIエージェントのGPUカーネル最適化を測るオープンベンチマーク

AgentKernelArenaは何を測定し、スコアはどのように計算されますか？

AMD Instinct MI300X上でROCm 7.1.1環境下での6エージェント比較

GEAKv3がトップ、Claude CodeがHIPカーネルで2位

よくある質問

出典

関連ニュース