🟢 🔧 하드웨어 게시일: · 1 분 읽기 ·

AMD: Resource Manager, 비활성 GPU 워크로드를 자동 선점하여 클러스터 공유 풀에 자원 반환

에디토리얼 일러스트: 데이터 센터에서 자원 흐름이 있는 GPU 가속기 행렬, 텍스트 및 얼굴 없음

AMD Resource Manager에 자동 선점(pre-emption) 기능이 추가되었습니다. 시스템은 워크로드별 GPU 사용률을 모니터링하고, 설정 가능한 임계값(예: 10%) 이하의 작업을 지정된 유휴 타이머(예: 15분) 이후 중단합니다. 비활성 개발 환경이 점유한 GPU 자원을 공유 풀로 반환하는 두 가지 정책 — GPU 부하 시에만 선점하거나 항상 선점 — 을 제공합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

Resource Manager는 어떤 작업을 선점할지 어떻게 결정하나요?

AMD는 ROCm 스택의 GPU 클러스터 관리 도구인 Resource Manager에 자동 선점(pre-emption) 기능을 추가했습니다. 시스템은 워크로드별 GPU 사용률을 모니터링하고, 활동이 설정 가능한 임계값(예: 10%) 이하로 지정된 유휴 타이머(예: 15분) 동안 유지되는 작업을 중단합니다. 이를 통해 비활성 작업이 점유한 GPU가 자동으로 공유 풀로 반환됩니다.

두 가지 선점 정책

Resource Manager는 두 가지 정책을 제공합니다. 기본 정책인 GPU 부하 시는 다른 워크로드가 실제로 GPU를 필요로 할 때만 비활성 작업을 선점합니다. 두 번째 정책인 항상은 클러스터의 수요에 관계없이 비활성 작업을 선점합니다. 관리자는 활동 임계값 비율과 유휴 타이머 지속 시간을 직접 설정할 수 있어 환경에 맞게 공격성을 조정할 수 있습니다.

AI 클러스터에서 중요한 이유

이 기능은 프로덕션 추론, 파인튜닝, 개발자 워크스테이션이 동일한 GPU를 공유하는 혼합 환경을 대상으로 합니다. 자동화 없이는 비활성 개발 환경과 중단된 실험에 갇힌 GPU가 운영자의 수동 개입을 기다려야 합니다. 자동 선점은 인간의 개입 없이 이러한 자원을 반환하여 고가의 AMD Instinct 가속기 활용도를 높입니다.

자주 묻는 질문

GPU 작업 선점(pre-emption)이란 무엇인가요?
선점은 활동이 설정된 임계값 이하로 너무 오래 유지된 작업을 자동으로 중단하여 GPU를 다른 워크로드로 반환하는 기능입니다.
AMD Resource Manager는 어떤 두 가지 정책을 제공하나요?
GPU 부하 시(기본값 — 다른 작업이 GPU를 필요로 할 때만 선점)와 항상(수요에 관계없이 비활성 작업 선점) 두 가지 정책을 제공합니다.