AgentKernelArena는 무엇을 측정하며 기존 벤치마크와 어떻게 다른가요?

AgentKernelArena는 GPU 커널 최적화 태스크에서 AI 코딩 에이전트를 측정합니다. 구체적으로, 에이전트가 결과의 정확성을 유지하면서 Triton 또는 HIP 커널을 얼마나 가속화하는지 측정합니다. 추상적인 프로그래밍 테스트와 달리, 각 태스크는 프로덕션 컴퓨팅 환경에 직접 관련된 측정 가능한 목표를 가집니다.

HIP 커널 태스크에서 가장 좋은 결과를 내는 에이전트는 무엇인가요?

GEAKv3(AMD 자체 에이전트, Claude Opus 4.6)가 hip2hip 카테고리에서 평균 9.04배의 속도 향상으로 선두를 차지했습니다. Claude Code(Claude Opus 4.6)가 6.08배로 2위, Cursor Agent(Claude Opus 4.6)가 5.03배로 3위를 기록했습니다.

에이전트 테스트에 사용된 하드웨어 플랫폼은 무엇인가요?

모든 실험은 192GB HBM3 메모리를 탑재한 AMD Instinct MI300X GPU에서 ROCm 7.1.1 PyTorch 컨테이너 내에서 수행되었습니다. 각 에이전트에는 태스크당 3600초의 시간 제한과 최대 3회의 반복이 허용되었습니다.

AMD AgentKernelArena: GPU 최적화 벤치마크

AMD Research는 2026년 7월 3일 AI 코딩 에이전트가 실제 GPU 커널을 얼마나 잘 최적화하는지 측정하는 오픈 벤치마킹 프레임워크 AgentKernelArena를 공개했습니다. 4가지 카테고리의 214개 태스크 중, AMD 자체 에이전트 GEAKv3(Claude Opus 4.6)가 HIP 커널에서 9.04배 속도 향상으로 선두를 차지했으며, Claude Code(Opus 4.6)가 6.08배로 2위를 기록했습니다. 모든 실험은 ROCm 7.1.1 환경의 AMD Instinct MI300X에서 수행되었습니다.

AMD Research는 2026년 7월 3일 AI 코딩 에이전트가 실제 GPU 커널을 얼마나 잘 최적화하는지 측정하는 오픈 벤치마킹 프레임워크 AgentKernelArena를 공개했습니다. 일반적인 코딩을 테스트하는 표준 프로그래밍 벤치마크와 달리, AgentKernelArena의 각 태스크는 구체적이고 측정 가능한 목표를 가집니다. 에이전트는 기존 GPU 커널을 받아 동일한 수치 결과를 생성하는 더 빠른 버전을 작성해야 합니다. GPU 커널 최적화는 AI 시스템 개발의 핵심 요소로, 연산자 성능 차이는 모델 훈련 비용과 프로덕션 추론 시스템의 레이턴시에 직접적인 영향을 미칩니다. 이 프레임워크는 에이전트의 표준화된 재현 가능한 비교를 위해 설계되었으며 오픈 프로젝트로 공개되었습니다.

AgentKernelArena는 무엇을 측정하며 결과는 어떻게 채점되나요?

전체 데이터셋에는 커널 변환 유형에 따라 4가지 카테고리로 구성된 214개 태스크가 포함됩니다. Triton2triton은 148개 태스크로 에이전트의 기존 Triton 커널 최적화 능력을 측정합니다. Hip2hip은 HIP 커널 최적화에 초점을 맞춘 36개 태스크를 포함합니다. Torch2hip은 에이전트가 PyTorch 연산을 동등한 HIP 커널로 재작성하는 26개 태스크를 포함합니다. Repository-scale 카테고리는 전체 코드 저장소 수준의 작업을 시뮬레이션하는 4개 태스크를 포함합니다. 이 논문에서 설명된 평가에는 대표적인 44개 태스크 서브셋이 사용되었습니다.

채점은 3단계로 이루어집니다. 컴파일은 최대 20점을 부여하며, 커널이 오류 없이 구문적으로 컴파일되어야 합니다. 정확성은 최대 100점으로, 최적화된 커널이 모든 테스트 케이스에서 참조 구현과 동일한 수치 결과를 생성해야 합니다. 속도 향상은 최적화된 커널과 원본 커널의 속도 비율로 계산되며 100을 곱합니다. 점수 구조는 정확성뿐만 아니라 실제 성능 향상도 보상하도록 의도적으로 설계되었습니다. 올바르게 작동하지만 속도 향상이 없거나 성능이 저하되는 커널은 실제로 연산을 가속화하는 커널보다 낮은 총점을 받습니다.

ROCm 7.1.1 내 AMD Instinct MI300X에서의 6가지 에이전트

에이전트 프레임워크와 기반 언어 모델의 다양한 조합으로 6가지 에이전트 구성이 테스트되었습니다. AMD 자체 에이전트 GEAKv3는 Claude Opus 4.6과 함께 사용되었습니다. Cursor Agent는 Claude Opus 4.6, GPT-5.3 Codex, Composer 2 세 가지 모델로 테스트되었습니다. Claude Code는 Claude Opus 4.6과 Claude Sonnet 4.6으로 테스트되었습니다. 모든 에이전트에 동일한 조건이 적용되었습니다. 태스크당 3,600초의 시간 제한과 시도당 최대 3회의 반복이 허용되었습니다.

모든 실험은 ROCm 7.1.1 PyTorch 컨테이너(rocm/pytorch:rocm7.1.1_ubuntu24.04_py3.12_pytorch_release_2.10.0) 내에서 192GB HBM3 메모리를 탑재한 AMD Instinct MI300X GPU에서 수행되었습니다. MI300X는 AMD 아키텍처에서 요구가 많은 AI 추론 및 훈련 워크로드의 프로덕션 표준을 대표하므로 기준 하드웨어 플랫폼으로 선택되었습니다.

GEAKv3 선두, Claude Code HIP 커널에서 2위

**GEAKv3(Claude Opus 4.6)**는 모든 카테고리에서 명확한 1위를 차지했습니다. hip2hip 태스크에서 평균 9.04배, triton2triton에서 2.75배, rocPRIM 저장소 태스크에서 1.20배의 속도 향상을 기록했습니다. AMD 자체 에이전트의 우세는 HIP 커널 변환에서 특히 두드러지며, 2위와 거의 두 배 차이로 선두를 달리고 있습니다.

표준 프런티어 에이전트 중에서 **Claude Code(Claude Opus 4.6)**는 hip2hip 카테고리에서 6.08배의 속도 향상으로 2위를 차지했습니다. Claude Opus 4.6을 탑재한 Cursor Agent는 5.03배로 3위입니다. GPT-5.3 Codex 구성은 3.06배를 달성했으며, Composer 2를 탑재한 Cursor는 1.34배로 최적화되지 않은 참조 커널보다 겨우 조금 나은 성능을 보였습니다.

triton2triton 태스크에서는 순위가 바뀌고 차이가 훨씬 줄어듭니다. Cursor(Opus 4.6)와 Claude Code(Opus 4.6)는 각각 1.96배와 1.95배로 거의 동등합니다. 우려스러운 결과는 GPT-5.3 Codex(0.99배)와 Composer 2(0.98배) 구성에서 나왔는데, 기준선 이하로 떨어졌습니다. 즉, 이 모델들은 이러한 조건에서 커널 성능을 향상시키는 대신 오히려 저하시킨다는 의미입니다.

AgentKernelArena는 오픈 프로젝트로 공개되었으며, 모든 태스크와 평가 인프라는 연구 및 개발 커뮤니티에서 이용할 수 있습니다. Sharareh Younesian, Wenwen Ouyang, Sinu Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Vikram Appiu, Zhenyua Gu, Emad Barsoum을 포함한 AMD Research 팀 저자들은 커뮤니티가 태스크 컬렉션을 확장하고 새로운 에이전트 구성을 테스트하도록 초대하고 있습니다.

AMD AgentKernelArena: GPU 커널 최적화를 위한 AI 에이전트 오픈 벤치마크

AgentKernelArena는 무엇을 측정하며 결과는 어떻게 채점되나요?

ROCm 7.1.1 내 AMD Instinct MI300X에서의 6가지 에이전트

GEAKv3 선두, Claude Code HIP 커널에서 2위

자주 묻는 질문

출처

관련 뉴스