Što mjeri AgentKernelArena i čime se razlikuje od standardnih benchmarka?

AgentKernelArena mjeri AI coding agente na zadacima optimizacije GPU kernela — konkretno, koliko ubrzaju Triton ili HIP kernel uz očuvanje ispravnosti rezultata. Za razliku od apstraktnih programerskih testova, svaki zadatak ima mjerljiv cilj direktno relevantan za produkcijska računalna okruženja.

Koji agent postiže najbolje rezultate na HIP kernel zadacima?

GEAKv3 (AMD-ov vlastiti agent s Claude Opus 4.6) vodi s prosječnim ubrzanjem od 9,04x na hip2hip kategoriji. Claude Code (Claude Opus 4.6) dolazi drugi s 6,08x, a Cursor Agent (Claude Opus 4.6) treći s 5,03x.

Na kojoj hardverskoj platformi su testirani agenti?

Svi eksperimenti izvođeni su na AMD Instinct MI300X GPU-u s 192 GB HBM3 memorije, unutar ROCm 7.1.1 PyTorch kontejnera. Svaki agent imao je vremenski limit od 3600 sekundi po zadatku i maksimalno 3 iteracije.

AMD AgentKernelArena: benchmark GPU optimizacije

AMD Research objavio je 3. srpnja 2026. otvoreni benchmarking okvir AgentKernelArena koji mjeri koliko dobro AI coding agenti optimiziraju stvarne GPU kernele. Od 214 zadataka u četiri kategorije, AMD-ov vlastiti GEAKv3 (Claude Opus 4.6) vodi s 9,04x ubrzanjem na HIP kernelima, dok Claude Code (Opus 4.6) dolazi drugi s 6,08x. Svi eksperimenti provođeni su na AMD Instinct MI300X unutar ROCm 7.1.1.

AMD Research objavio je 3. srpnja 2026. otvoreni benchmarking okvir AgentKernelArena koji mjeri koliko dobro AI coding agenti optimiziraju stvarne GPU kernele. Za razliku od standardnih programerskih benchmarka koji testiraju opće kodiranje, svaki zadatak u AgentKernelAreni ima konkretan, mjerljiv cilj: agent mora uzeti postojeći GPU kernel i napisati bržu verziju koja daje identične numeričke rezultate. Optimizacija GPU kernela kritičan je segment razvoja AI sustava — razlike u performansu operatora izravno utječu na trošak treniranja modela i latenciju inferentnih sustava u produkciji. Okvir je namijenjen standardiziranoj, reproducibilnoj usporedbi agenata i objavljen je kao otvoreni projekt.

Što mjeri AgentKernelArena i kako se boduju rezultati?

Ukupna zbirka sadrži 214 zadataka raspoređenih u četiri kategorije prema tipu transformacije kernela. Triton2triton obuhvaća 148 zadataka i mjeri sposobnost agenta da optimizira postojeći Triton kernel. Hip2hip sadrži 36 zadataka fokusiranih na HIP kernel optimizaciju. Torch2hip uključuje 26 zadataka u kojima agent prepisuje PyTorch operacije u ekvivalentni HIP kernel. Repository-scale kategorija sadrži 4 zadatka koji simuliraju rad na razini cijelih kodnih repozitorija. Za evaluaciju opisanu u ovom radu korišten je reprezentativni podskup od 44 zadatka.

Bodovanje je trostupanjsko. Kompilacija donosi do 20 bodova: kernel mora sintaktički kompajlirati bez grešaka. Ispravnost donosi do 100 bodova: optimizirani kernel mora davati iste numeričke rezultate kao referentna implementacija na svim testnim slučajevima. Ubrzanje se izračunava kao omjer brzine optimiziranog i originalnog kernela, množen s 100 — što je koeficijent ubrzanja veći, to je doprinos višem bodu veći. Bodovna struktura namjerno nagrađuje ne samo točnost nego i stvarno poboljšanje performansa: kernel koji ispravno radi, ali donosi nulto ubrzanje ili čak degradira performans, skuplja manji ukupni bod od onog koji aktivno ubrzava računanje.

Šest agenata na AMD Instinct MI300X unutar ROCm 7.1.1

Testirana je šest konfiguracija agenata s različitim kombinacijama agentnog okvira i pozadinskog jezičnog modela. AMD-ov vlastiti agent GEAKv3 korišten je s Claude Opus 4.6. Cursor Agent testiran je s tri modela: Claude Opus 4.6, GPT-5.3 Codex i Composer 2. Claude Code testiran je s Claude Opus 4.6 i Claude Sonnet 4.6. Svim agentima postavljeni su jednaki uvjeti: vremenski limit od 3 600 sekundi po zadatku i maksimalno 3 iteracije po pokušaju.

Svi eksperimenti izvođeni su na AMD Instinct MI300X GPU-u s 192 GB HBM3 memorije unutar ROCm 7.1.1 PyTorch kontejnera (rocm/pytorch:rocm7.1.1_ubuntu24.04_py3.12_pytorch_release_2.10.0). MI300X odabran je kao referentna hardverska platforma jer predstavlja produkcijski standard za zahtjevne AI inferentne i trening workloadove na AMD arhitekturi.

GEAKv3 vodi, Claude Code drugi na HIP kernelima

GEAKv3 (Claude Opus 4.6) postiže uvjerljivo prvi rezultat u svim kategorijama: prosječno ubrzanje od 9,04× na hip2hip zadacima, 2,75× na triton2triton i 1,20× na rocPRIM repozitorij zadacima. Prednost AMD-ovog vlastitog agenta posebno je izražena na HIP kernel transformacijama gdje vodi gotovo dvostruko ispred drugoplasiranog.

Među standardnim frontier agentima, Claude Code (Claude Opus 4.6) dolazi drugi na hip2hip kategoriji s ubrzanjem od 6,08×. Cursor Agent s Claude Opus 4.6 treći je s 5,03×. Konfiguracija s GPT-5.3 Codex postiže 3,06×, dok Cursor s Composer 2 dolazi na 1,34× — tek marginalno ispred neoptimiziranog referentnog kernela.

Na triton2triton zadacima raspored se mijenja i razlike su znatno manje: Cursor (Opus 4.6) i Claude Code (Opus 4.6) gotovo su izjednačeni s 1,96× i 1,95× respektivno. Zabrinjavajuć nalaz dolazi od konfiguracija s GPT-5.3 Codex (0,99×) i Composer 2 (0,98×), koje padaju ispod referentne razine — što znači da ti modeli u ovim uvjetima aktivno degradiraju performans kernela umjesto da ga poboljšavaju.

AgentKernelArena je objavljena kao otvoreni projekt, a svi zadaci i evaluacijska infrastruktura dostupni su istraživačkoj i razvojnoj zajednici. Autori — AMD Research tim koji uključuje Sharareh Younesian, Wenwen Ouyang, Sinu Rafati, Mehdija Rezagholizadeh, Sharon Zhou, Vikrama Appiu, Zhenyua Gua i Emada Barsouma — pozivaju zajednicu na proširenje zbirke zadataka i testiranje novih konfiguracija agenata.

AMD AgentKernelArena: otvoreni benchmark za AI agente na GPU kernel optimizaciji

Što mjeri AgentKernelArena i kako se boduju rezultati?

Šest agenata na AMD Instinct MI300X unutar ROCm 7.1.1

GEAKv3 vodi, Claude Code drugi na HIP kernelima

Česta pitanja

Izvori

Povezane vijesti