🟡 🔧 하드웨어 게시일: · 2 분 읽기 ·

AMD: Instinct MI355X가 세 가지 ComfyUI 워크플로에서 NVIDIA B200 초과——ROCm 7.2.0 PyTorch 최적화 활용

Editorial illustration: Instinct MI355X가 세 가지 ComfyUI 워크플로에서 NVIDIA B200 초과——ROCm 7.2.0 PyTorch 최적화 활용

AMD Instinct MI355X는 발표된 벤치마크에서 세 가지 ComfyUI 생성 워크플로——텍스트-투-비디오 Wan2.2(1.44×), 텍스트-투-이미지 FLUX.1-dev(1.42×), 3D Hunyuan3D v2.1(1.20×)——에서 NVIDIA B200을 초과하는 데이터센터 GPU입니다. ROCm 7.2.0의 AOTriton gfx950 커널, hipBLASLt GEMM 튜닝 등의 최적화 덕분입니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

AMD가 발표한 벤치마크는 Instinct MI355XROCm 7.2.0CDNA4 아키텍처용 PyTorch 어텐션 최적화를 통해 세 가지 ComfyUI 생성 워크플로에서 NVIDIA B200을 초과함을 보여줍니다. 결과는 누구나 실행할 수 있는 Docker 이미지로 공유되었습니다.

워크플로별 결과

수치는 명확합니다:

  • 텍스트-투-비디오(Wan2.2): MI355X가 1.439× 속도 향상 달성, 116.91초 대 B200의 168.28초.
  • 텍스트-투-이미지(FLUX.1-dev): 1.416× 빠름, 24.77초 대 35.09초.
  • 3D 생성(Hunyuan3D v2.1): 1.201× 속도 향상, 21.51초 대 25.84초.

CDNA4 하드웨어

MI355X는 256개의 컴퓨팅 유닛, 288 GB HBM3e 메모리, 8 TB/s 메모리 대역폭을 갖추고 있습니다. 이 사양은 확산 모델에서 전형적인 어텐션 집약적 연산에 유리합니다——대용량 메모리로 타일링 없이 고해상도 이미지와 비디오 프레임의 중간 표현을 유지하고, 높은 대역폭으로 메모리 대기 시간을 줄입니다.

ROCm 7.2.0의 최적화

성능은 하드웨어만에서 비롯되지 않습니다. 핵심 소프트웨어 개선사항은 다음과 같습니다:

  • AOTriton gfx950 커널 지원 — CDNA4용 사전 컴파일 Triton 컴파일러를 통한 네이티브 어텐션 가속.
  • 점유율 튜닝 — 효율성 향상을 위한 warp 수 감소.
  • hipBLASLt GEMM 최적화 — FP8, BF16, FP16용으로 튜닝된 커널(확산 모델과 transformer 작업의 주요 데이터 유형).
  • 파이프라이닝과 ThinLTO 컴파일러 최적화.

AI 하드웨어 시장에 대한 의미

세 가지 프로덕션 시나리오——비디오, 이미지, 3D——는 대부분의 생성형 ComfyUI 사용 사례를 다룹니다. AMD가 세 가지 영역 전반에 걸쳐 일관된 수치를 보여준다는 것은 NVIDIA의 오랜 구조적 우위였던 CUDA/ROCm 격차가 특정 프레임워크의 소프트웨어 성숙도에 따라 좁혀지고 있음을 시사합니다. ComfyUI 사용자에게 AMD는 이제 적어도 벤치마크 수준에서는 정당한 선택지가 되었습니다.

자주 묻는 질문

CDNA4 아키텍처란 무엇입니까?
CDNA4는 MI355X에 사용된 AMD의 최신 데이터센터 GPU 아키텍처입니다. 256개의 컴퓨팅 유닛, 288 GB HBM3e 메모리, 8 TB/s 메모리 대역폭을 제공하여 transformer와 확산 모델의 어텐션 집약적 연산에 특히 유리합니다.
AOTriton과 hipBLASLt란 무엇입니까?
AOTriton은 AMD의 '사전 컴파일' Triton 컴파일러로, gfx950(CDNA4)용 네이티브 커널을 통해 어텐션 연산을 가속합니다. hipBLASLt는 AMD의 GEMM 라이브러리로, FP8/BF16/FP16용으로 튜닝된 커널을 보유합니다——이는 현대 확산 모델과 transformer 모델에서 주로 사용되는 데이터 유형입니다.
벤치마크 결과를 재현할 수 있습니까?
AMD가 사전 구성된 최적화를 포함한 Docker 이미지를 공개했습니다. 사용자는 동일한 구성을 실행하여 결과를 재현할 수 있습니다. 상세 수치(Wan2.2: 116.91초 대 168.28초, FLUX.1-dev: 24.77초 대 35.09초, Hunyuan3D: 21.51초 대 25.84초)는 공개된 표에 투명하게 제시되어 있습니다.