🟡 🔧 하드웨어 2026년 5월 6일 수요일 · 1 분 읽기 ·

AMD: FarSkip-Collective, AMD GPU에서 MoE 추론 속도 18~34% 향상

편집 일러스트: MoE 추론 중 유휴 블록 없이 AMD GPU 간을 흐르는 병렬 데이터 스트림

AMD ROCm 팀이 전문가 병렬 통신 중 GPU 유휴 시간을 제거하는 개선된 MoE 아키텍처인 FarSkip-Collective를 발표했습니다. 결과: Llama-4 Scout의 TTFT 18% 감소, DeepSeek-V3 최대 1.34배 가속, Moonlight 사전 훈련 단계 11% 향상.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

AMD가 발표한 것은 무엇입니까?

AMD ROCm 팀은 전문가 병렬 통신 중 GPU 유휴 문제를 해결하는 개선된 MoE(Mixture of Experts) 아키텍처인 FarSkip-Collective를 발표했습니다. 이 솔루션은 “이미 사용 가능한 부분적 또는 오래된 활성화 상태”를 사용하여 다음 레이어를 시작함으로써 통신이 병렬로 흐르는 동안 블로킹 동기화 버블을 제거합니다.

MoE와 Expert Parallelism이란 무엇입니까?

MoE는 전체 모델이 아닌 각 토큰에 대해 “전문가”(전문화된 하위 네트워크)의 일부만 활성화하는 아키텍처입니다. Expert Parallelism은 이러한 전문가들을 여러 GPU에 분산시키는 전략으로, GPU 카드 간의 상호 통신이 필요합니다.

TTFT(Time to First Token, 첫 번째 토큰 생성 시간)는 사용자 쿼리부터 첫 번째 출력 토큰까지의 지연 시간입니다——이는 대화형 LLM 애플리케이션의 핵심 지표입니다.

추론 속도가 얼마나 빨라집니까?

AMD는 ROCm 플랫폼에서의 구체적인 결과를 보고했습니다:

  • Llama-4 Scout의 TTFT 18% 감소
  • DeepSeek-V3(6710억 파라미터) 최대 1.34× 가속
  • Moonlight 모델 사전 훈련 단계 11% 가속
  • Grouped-Query-Attention 기술과 결합 시 추가 16% 가속

결과는 AMD Instinct GPU에서 측정되었으며, 이 접근 방식은 MoE 결과를 변경하지 않습니다——표준 기준 모델 대비 정확도가 유지됩니다.

중첩이 왜 중요합니까?

기존의 Expert Parallelism 방식에서는 GPU가 다음 레이어를 시작하기 전에 이전 레이어가 활성화 교환을 완료할 때까지 기다려야 합니다. 이로 인해 “버블”——컴퓨팅 유닛이 유휴 상태가 되는 시간——이 발생합니다.

FarSkip-Collective는 이 통신을 다음 레이어의 계산과 중첩시키므로 GPU가 거의 대기하지 않습니다. 그 결과 추가 비용 없이 평균 하드웨어 활용률이 향상됩니다.

자주 묻는 질문

MoE 아키텍처란 무엇입니까?
Mixture of Experts(전문가 혼합)는 전체 모델이 아닌 각 토큰에 대해 전문화된 하위 네트워크(전문가)의 일부만 활성화하는 아키텍처로, 계산 비용을 절감합니다.
DeepSeek-V3에서 얼마나 빠르게 됩니까?
6710억 파라미터 DeepSeek-V3 모델의 추론 실행에서 최대 1.34배 가속을 달성합니다.
모델 정확도가 저하됩니까?
아니요. AMD는 표준 MoE 기준 모델 대비 정확도가 유지된다고 밝혔습니다.