ROLL 프레임워크, AMD Instinct GPU에서 네이티브 작동

AMD는 Alibaba의 오픈소스 강화학습 프레임워크 ROLL이 이제 ROCm 소프트웨어와 함께 AMD Instinct GPU에서 코드 수정, 커스텀 패치, 비표준 빌드 없이 네이티브로 작동한다고 발표했다. 이번 협력에는 vLLM 호환성, Ray 수정 사항, 대규모 언어 모델의 분산 RL 학습 지원이 포함된다.

AMD는 자사 ROCm 블로그에서 Alibaba와의 협력을 설명했는데, 이를 통해 오픈소스 강화학습 프레임워크 ROLL이 ROCm 소프트웨어 스택과 함께 AMD Instinct GPU에서 네이티브로 작동하도록 했다. 핵심 메시지는 프레임워크가 코드 수정, 커스텀 패치, 비표준 빌드 없이 “즉시(out-of-the-box)” 작동한다는 것이다.

ROLL이란 무엇인가?

ROLL은 Alibaba가 대규모 언어 모델(LLM)에 대한 대규모 분산 강화학습 워크플로를 위해 개발한 오픈소스 프레임워크다. 강화학습은 모델이 바람직한 행동에 대한 보상을 통해 학습하는 방법이다. ROLL은 PPO, GRPO, DPO, RLHF 같은 알고리즘과 비동기 실행, 네이티브 에이전트 학습을 지원한다.

vLLM과 Ray 호환성은 어떻게 해결되었는가?

AMD는 vLLM 엔진의 두 세대 — 레거시 v0와 더 나은 처리량을 제공하는 신형 v1 — 모두에 대한 지원을 추가했다. vLLM은 언어 모델의 빠른 추론을 위한 라이브러리다. “sleep mode” 동작의 경우 vLLM 버전 0.11.0 이상은 완전히 지원되며, 더 오래된 버전은 별도의 ROCm 브랜치를 필요로 한다. 또한 AMD는 Ray(버전 2.48 이상)에 대한 수정 사항을 기여했는데, 이는 GPU 장치 가시성의 불일치, 즉 HIP_VISIBLE_DEVICES와 CUDA_VISIBLE_DEVICES 변수의 호환성 문제를 해결한다.

이것이 무엇을 가능하게 하는가?

프레임워크는 단일 노드 학습과 여러 노드에 걸친 분산 학습을 지원하며, Qwen 2.5-7B 같은 모델을 위한 구성 예시와 조정 가능한 GPU 메모리 활용 파라미터를 제공한다. AMD 장비 사용자에게 이는 타사 하드웨어 생태계에 의존하지 않고도 까다로운 언어 모델 RL 학습을 실행할 수 있음을 의미한다.

자주 묻는 질문

ROLL이란 무엇인가요?

ROLL은 Alibaba가 언어 모델에 대한 대규모 분산 RL 워크로드를 위해 개발한 오픈소스 강화학습 프레임워크로, PPO, GRPO, DPO, RLHF를 지원합니다.

AMD GPU에서 실행하려면 코드를 변경해야 하나요?

아니요. AMD는 ROLL이 ROCm과 함께 Instinct GPU에서 코드 수정, 커스텀 패치, 비표준 빌드 없이 즉시(out-of-the-box) 작동한다고 밝혔습니다.

AMD: Alibaba의 ROLL 프레임워크, Instinct GPU에서 네이티브로 작동

ROLL이란 무엇인가?

vLLM과 Ray 호환성은 어떻게 해결되었는가?

이것이 무엇을 가능하게 하는가?

자주 묻는 질문

출처

관련 뉴스