🟡 🔧 Hardware Veröffentlicht: · 3 Min. Lesezeit ·

AMD AgentKernelArena: offener Benchmark für KI-Agenten zur GPU-Kernel-Optimierung

Redaktionelle Illustration: AMD MI355 GPU-Chip zur Optimierung von Kernel-Code durch KI-Agenten im Benchmark

AMD Research veröffentlichte am 3. Juli 2026 das offene Benchmark-Framework AgentKernelArena, das misst, wie gut KI-Coding-Agenten reale GPU-Kernel optimieren. Von 214 Aufgaben in vier Kategorien führt AMDs eigener GEAKv3 (Claude Opus 4.6) mit einer 9,04-fachen Beschleunigung bei HIP-Kerneln; Claude Code (Opus 4.6) folgt mit 6,08x. Alle Experimente wurden auf AMD Instinct MI300X unter ROCm 7.1.1 durchgeführt.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

AMD Research veröffentlichte am 3. Juli 2026 das offene Benchmark-Framework AgentKernelArena, das misst, wie gut KI-Coding-Agenten reale GPU-Kernel optimieren. Im Gegensatz zu Standard-Programmierbenchmarks, die allgemeines Coding testen, hat jede Aufgabe in der AgentKernelArena ein konkretes, messbares Ziel: Der Agent muss einen vorhandenen GPU-Kernel übernehmen und eine schnellere Version schreiben, die identische numerische Ergebnisse liefert. GPU-Kernel-Optimierung ist ein kritischer Bereich der KI-Systementwicklung — Leistungsunterschiede bei Operatoren wirken sich direkt auf die Trainingskosten von Modellen und die Inferenzlatenz in Produktionssystemen aus. Das Framework ist für standardisierte, reproduzierbare Agentenvergleiche konzipiert und als Open-Source-Projekt veröffentlicht.

Was misst AgentKernelArena und wie werden Ergebnisse bewertet?

Die Gesamtsammlung umfasst 214 Aufgaben in vier Kategorien nach Kernel-Transformationstyp. Triton2triton enthält 148 Aufgaben und misst die Fähigkeit des Agenten, einen vorhandenen Triton-Kernel zu optimieren. Hip2hip umfasst 36 Aufgaben zur HIP-Kernel-Optimierung. Torch2hip beinhaltet 26 Aufgaben, bei denen der Agent PyTorch-Operationen in einen äquivalenten HIP-Kernel umschreibt. Die Repository-scale-Kategorie enthält 4 Aufgaben, die die Arbeit auf Ebene ganzer Code-Repositories simulieren. Für die in diesem Bericht beschriebene Evaluierung wurde ein repräsentativer Teilsatz von 44 Aufgaben verwendet.

Die Bewertung erfolgt dreistufig. Kompilierung bringt bis zu 20 Punkte: Der Kernel muss syntaktisch fehlerfrei kompilieren. Korrektheit bringt bis zu 100 Punkte: Der optimierte Kernel muss in allen Testfällen identische numerische Ergebnisse wie die Referenzimplementierung liefern. Beschleunigung wird als Verhältnis von optimiertem zu originalem Kernel berechnet, multipliziert mit 100 — je größer der Beschleunigungsfaktor, desto höher der Beitrag zur Gesamtpunktzahl. Die Punktestruktur belohnt bewusst nicht nur Korrektheit, sondern auch echte Leistungsverbesserung: Ein Kernel, der korrekt arbeitet, aber keine Beschleunigung oder gar Leistungsverschlechterung bringt, erzielt weniger Gesamtpunkte als einer, der die Berechnung aktiv beschleunigt.

Sechs Agenten auf AMD Instinct MI300X unter ROCm 7.1.1

Getestet wurden sechs Agentenkonfigurationen mit verschiedenen Kombinationen aus Agent-Framework und Basissprachmodell. AMDs eigener Agent GEAKv3 wurde mit Claude Opus 4.6 eingesetzt. Cursor Agent wurde mit drei Modellen getestet: Claude Opus 4.6, GPT-5.3 Codex und Composer 2. Claude Code wurde mit Claude Opus 4.6 und Claude Sonnet 4.6 getestet. Für alle Agenten galten gleiche Bedingungen: Zeitlimit von 3.600 Sekunden pro Aufgabe und maximal 3 Iterationen pro Versuch.

Alle Experimente wurden auf einem AMD Instinct MI300X mit 192 GB HBM3-Speicher im ROCm 7.1.1 PyTorch-Container (rocm/pytorch:rocm7.1.1_ubuntu24.04_py3.12_pytorch_release_2.10.0) ausgeführt. Der MI300X wurde als Referenz-Hardware-Plattform gewählt, da er den Produktionsstandard für anspruchsvolle KI-Inferenz- und Trainings-Workloads auf AMD-Architektur darstellt.

GEAKv3 führt, Claude Code Zweiter bei HIP-Kerneln

GEAKv3 (Claude Opus 4.6) erzielt in allen Kategorien überzeugende Spitzenergebnisse: durchschnittliche Beschleunigung von 9,04× bei hip2hip-Aufgaben, 2,75× bei triton2triton und 1,20× bei rocPRIM-Repository-Aufgaben. Der Vorsprung von AMDs eigenem Agenten ist besonders bei HIP-Kernel-Transformationen ausgeprägt, wo er fast doppelt so gut abschneidet wie der Zweitplatzierte.

Unter den Standard-Frontier-Agenten belegt Claude Code (Claude Opus 4.6) bei der hip2hip-Kategorie mit einer Beschleunigung von 6,08× den zweiten Platz. Cursor Agent mit Claude Opus 4.6 liegt mit 5,03× auf Platz drei. Die GPT-5.3-Codex-Konfiguration erreicht 3,06×, während Cursor mit Composer 2 auf 1,34× kommt — kaum besser als der unoptimierte Referenz-Kernel.

Bei den triton2triton-Aufgaben verschiebt sich die Reihenfolge, und die Unterschiede sind deutlich geringer: Cursor (Opus 4.6) und Claude Code (Opus 4.6) liegen mit 1,96× und 1,95× nahezu gleichauf. Besorgniserregend sind die Ergebnisse der Konfigurationen mit GPT-5.3 Codex (0,99×) und Composer 2 (0,98×), die unter das Referenzniveau fallen — diese Modelle verschlechtern in diesen Bedingungen die Kernel-Leistung aktiv, anstatt sie zu verbessern.

AgentKernelArena wurde als Open-Source-Projekt veröffentlicht; alle Aufgaben und die Evaluierungsinfrastruktur stehen der Forschungs- und Entwicklergemeinschaft zur Verfügung. Die Autoren — das AMD-Research-Team mit Sharareh Younesian, Wenwen Ouyang, Sinu Rafati, Mehdija Rezagholizadeh, Sharon Zhou, Vikrama Appiu, Zhenyua Gua und Emad Barsouma — laden die Community ein, die Aufgabensammlung zu erweitern und neue Agentenkonfigurationen zu testen.

Häufig gestellte Fragen

Was misst AgentKernelArena und worin unterscheidet es sich von Standard-Benchmarks?
AgentKernelArena misst KI-Coding-Agenten bei der Optimierung von GPU-Kerneln — konkret, wie stark sie einen Triton- oder HIP-Kernel beschleunigen, ohne die Korrektheit der Ergebnisse zu beeinträchtigen. Im Gegensatz zu abstrakten Programmieraufgaben hat jede Aufgabe ein messbares Ziel mit direkter Relevanz für produktive Rechenumgebungen.
Welcher Agent erzielt die besten Ergebnisse bei HIP-Kernel-Aufgaben?
GEAKv3 (AMDs eigener Agent mit Claude Opus 4.6) führt mit einer durchschnittlichen Beschleunigung von 9,04x in der Kategorie hip2hip. Claude Code (Claude Opus 4.6) folgt mit 6,08x, Cursor Agent (Claude Opus 4.6) mit 5,03x.
Auf welcher Hardware wurden die Agenten getestet?
Alle Experimente wurden auf einem AMD Instinct MI300X mit 192 GB HBM3-Speicher im ROCm 7.1.1 PyTorch-Container ausgeführt. Jeder Agent hatte ein Zeitlimit von 3600 Sekunden pro Aufgabe und maximal 3 Iterationen.