Miles: 프론티어 규모 LLM을 위한 PyTorch 네이티브 오픈소스 RL 포스트 트레이닝 프레임워크
RadixArk이 Miles를 발표합니다 — SGLang, Megatron-LM, Ray, PyTorch를 Hopper 및 Blackwell GPU에서 대규모 언어 모델 포스트 트레이닝을 위한 단일 프로덕션 테스트 스택으로 통합하는 오픈소스 강화학습 프레임워크.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
RadixArk 회사가 프론티어 규모 대규모 언어 모델의 포스트 트레이닝을 위한 오픈소스 강화학습(RL) 프레임워크인 Miles를 PyTorch 생태계에 기여로 발표했습니다. Miles는 현대 LLM 개발에서 가장 어려운 엔지니어링 문제 중 하나를 해결합니다: 클러스터 규모에서 특화된 하드웨어 간 롤아웃 생성, 분산 훈련 및 가중치 동기화 조율.
RL 포스트 트레이닝이 왜 이렇게 어렵습니까?
RLHF 또는 규칙 기반 강화학습 방법을 사용한 LLM 훈련은 단순히 알고리즘의 문제가 아닙니다 — 이는 분산 시스템 문제입니다. 롤아웃 단계는 모델 추론을 사용하여 샘플을 생성하는 반면 훈련 단계는 가중치를 업데이트하며, 두 프로세스 모두 최소한의 지연으로 실시간으로 조율되어야 합니다. 프론티어 규모에서 수백 개의 GPU로, 네트워크 대역폭, 내결함성 및 수치 일관성에 대한 복잡한 요구 사항이 불가피합니다.
Miles는 네 가지 확립된 구성 요소를 결합하는 하나의 통합 스택으로 이 조율 복잡성을 해결합니다: 고처리량 롤아웃 생성을 위한 SGLang, 확장 가능한 분산 훈련 백엔드로서의 Megatron-LM, 클러스터 오케스트레이션 및 액터 수명주기 관리를 위한 Ray, 그리고 모델, 자동 미분 및 분산 프리미티브를 위한 PyTorch.
‘작은 코어, 많은 확장’의 설계
Miles의 핵심 철학은 명시적 확장 포인트를 갖춘 컴팩트한 훈련 루프입니다. 사용자가 모든 새 실험을 위해 프레임워크를 포크하는 대신, Miles는 롤아웃 함수, 작업별 보상 함수, RL 손실 함수, 샘플 필터 및 메트릭 및 진단을 위한 훈련 훅을 위한 플러그 가능한 인터페이스를 제공합니다. 이러한 설계는 임시 인프라를 축적하지 않고 대규모 실험의 재현성을 보장합니다.
핵심적인 혁신 요소 중 하나는 MoE 인식 라우팅 리플레이 — MoE(Mixture-of-Experts) 모델의 라우팅 결정을 롤아웃과 훈련 단계 경계를 통해 보존하는 메커니즘입니다. 이 일관성 없이는 전문가들에게 입력이 분배되는 방식이 샘플 생성과 그래디언트 업데이트 사이에 불안정해질 수 있으며, 이는 수렴을 방해합니다.
비동기 RL 및 가중치 동기화
Miles는 샘플의 지속적인 스트리밍으로 완전한 비동기 RL을 지원합니다: 롤아웃과 훈련 단계는 사용 가능한 하드웨어와 실험 요구 사항에 따라 완전히 분리되거나 공동 배치될 수 있습니다. 단계 간 가중치 동기화는 NCCL/RDMA 채널을 통해 수행되어 파라미터 전송 지연을 최소화합니다. GPU 인식 Ray 배치 그룹은 네트워크 토폴로지와 랙 레이아웃을 고려하여 액터를 최적으로 배치합니다.
실험이 일주일 이상 지속될 수 있는 장기 워크로드의 경우 Miles는 내결함성을 위해 Ray의 감독 모델을 사용합니다: 하나의 워커가 실패해도 전체 실험이 실패하지 않습니다.
정밀도 및 LoRA 지원
Miles는 낮은 정밀도에 대한 완전한 지원으로 두 단계를 포함하는 단일 파이프라인을 제공합니다: BF16, FP8, MXFP8 및 INT4-QAT. 각 정밀도는 수동 변환 관리 없이 롤아웃과 훈련을 통해 사용할 수 있습니다. 또한 LoRA(저순위 적응)는 두 경로 모두에서 지원됩니다 — 전체 정밀도에 맞지 않는 모델에 대한 파라미터 효율적인 포스트 트레이닝에 실용적입니다.
프론티어 모델에서의 프로덕션 검증
Miles는 단순한 연구 프로토타입이 아닙니다. 프레임워크는 2026년 전반기에 발표된 가장 주목받는 오픈소스 모델 중 일부에서 프로덕션 테스트되었습니다: DeepSeek-V4, Kimi K2.5 및 K2.6, GLM-5 및 GLM-5.1, Qwen3.5 및 Qwen3.6. 이 모든 모델은 저장소에 포함된 즉시 실행 가능한 레시피(ready-to-run recipes)와 함께 제공되어 새 사용자가 자체 실험을 시작하는 데 필요한 시간을 크게 단축합니다.
하드웨어 지원은 NVIDIA Hopper 및 Blackwell GPU 아키텍처를 포함하며, 두 세대의 하드웨어 특성을 활용하는 GPU 인식 스케줄링을 제공합니다.
커뮤니티에 대한 실질적 의의
Miles의 PyTorch 생태계 기여는 여러 이유에서 중요합니다. 첫째, 일반적으로 함께 사용되지만 표준화된 인터페이스 없이 사용되는 네 가지 도구를 통합합니다. 둘째, 재현 가능하고 프로덕션에서 운영 가능한 비동기 RL의 참조 구현을 제공합니다. 셋째, 플러그 가능한 아키텍처는 연구자들이 스택의 모든 분산 세부 사항을 이해할 필요 없이 새 알고리즘을 실험할 수 있음을 의미합니다.
프로젝트는 PyTorch 조직의 GitHub에서 이용 가능하며 이미 설명된 모델에 대한 문서, 레시피 및 개별 구성 요소 사용자 지정 가이드를 포함합니다.
자주 묻는 질문
- Miles는 무엇이며 누가 개발했습니까?
- Miles는 RadixArk 회사가 개발한 오픈소스 강화학습 프레임워크입니다. 프론티어 규모 LLM의 RL 포스트 트레이닝을 위해 설계되었으며 PyTorch 기반으로 SGLang, Megatron-LM, Ray를 결합하여 구축되었습니다.
- Miles로 프로덕션 테스트된 모델은 무엇입니까?
- Miles는 DeepSeek-V4, Kimi K2.5 및 K2.6, GLM-5 및 5.1, Qwen3.5 및 Qwen3.6에서 프로덕션 테스트되었습니다. 이 모든 모델에는 저장소에 포함된 완성된 레시피가 있습니다.
- Miles가 지원하는 정밀도와 GPU 아키텍처는 무엇입니까?
- Miles는 롤아웃과 훈련을 모두 포함하는 단일 파이프라인을 통해 BF16, FP8, MXFP8 및 INT4-QAT 정밀도를 지원합니다. NVIDIA Hopper 및 Blackwell GPU에서 하드웨어 테스트되었습니다.