Miles:面向前沿规模大语言模型的 PyTorch 原生开源强化学习后训练框架
RadixArk 发布 Miles,这是一个将 SGLang、Megatron-LM、Ray 和 PyTorch 整合为统一生产级堆栈的开源强化学习框架,专为在 Hopper 和 Blackwell GPU 上对大型语言模型进行后训练而设计。
本文由人工智能基于一手来源生成。
RadixArk 发布了 Miles,这是一个作为 PyTorch 生态系统贡献的开源强化学习(RL)后训练框架,专为前沿规模大型语言模型设计。Miles 解决了现代 LLM 开发中最棘手的工程问题之一:在集群规模的专用硬件上协调推出生成、分布式训练和权重同步。
为什么强化学习后训练如此复杂?
使用 RLHF 或基于规则的强化学习等方法训练 LLM,不仅仅是算法问题——这是一个分布式系统问题。推出阶段使用模型推理生成样本,而训练阶段更新权重,两个过程必须在最小停顿的情况下实时协调。在前沿规模下,数百个 GPU 参与其中,不可避免地需要复杂的网络带宽、容错和数值一致性保证。
Miles 通过一个整合四个成熟组件的统一技术栈解决了这一协调复杂性:SGLang 用于高吞吐量推出生成,Megatron-LM 作为可扩展的分布式训练后端,Ray 用于集群编排和 actor 生命周期管理,PyTorch 用于模型、自动微分和分布式原语。
“小核心,多扩展”的设计理念
Miles 的核心理念是一个具有明确扩展点的紧凑训练循环。用户无需为每个新实验 fork 框架,Miles 提供了可插拔接口,用于推出函数、特定任务的奖励函数、RL 损失函数、样本过滤器以及用于指标和诊断的训练钩子。这种设计确保了大型实验的可复现性,同时不会积累临时基础设施。
一个关键创新元素是 MoE 感知路由重放(MoE-aware Routing Replay)——该机制保持 MoE(混合专家)模型的路由决策跨越推出和训练阶段边界的一致性。如果没有这种一致性,推出采样和梯度更新之间的专家输入分布可能会不稳定,从而损害收敛性。
异步强化学习与权重同步
Miles 支持具有持续样本流的完全异步 RL:推出和训练阶段可以完全分离或并置,具体取决于可用硬件和实验需求。权重同步通过 NCCL/RDMA 通道在阶段之间执行,最小化参数传输延迟。GPU 感知的 Ray 分配组确保 actor 根据网络拓扑和机架布局得到最优放置。
对于长时间运行的工作负载——实验可能持续一周或更长时间——Miles 利用 Ray 的监督模型实现容错:单个工作节点的故障不会导致整个实验崩溃。
精度与 LoRA 支持
Miles 为两个阶段提供统一流水线,全面支持低精度:BF16、FP8、MXFP8 和 INT4-QAT。每种精度都可在推出和训练中使用,无需手动管理转换。此外,LoRA(低秩适配)在两条路径上均受支持——这对于无法以完整精度容纳的模型的参数高效后训练非常实用。
在前沿模型上的生产验证
Miles 不仅仅是一个研究原型。该框架已在 2026 年上半年发布的一些最重要的开源模型上完成生产测试:DeepSeek-V4、Kimi K2.5 和 K2.6、GLM-5 和 GLM-5.1 以及 Qwen3.5 和 Qwen3.6。所有这些模型都附带包含在代码库中的现成配方(ready-to-run recipes),大大缩短了新用户启动自己实验所需的时间。
硬件支持涵盖 NVIDIA Hopper 和 Blackwell GPU 架构,以及充分利用两代硬件特性的 GPU 感知调度。
对社区的实际意义
Miles 对 PyTorch 生态系统的贡献有几个重要原因。首先,它整合了四个通常一起使用但没有标准接口的工具。其次,它为可复现且在生产中运行良好的异步 RL 提供了参考实现。第三,可插拔架构意味着研究人员可以在不需要理解技术栈所有分布式细节的情况下尝试新算法。
该项目以 PyTorch 组织名义在 GitHub 上发布,已包含文档、上述模型的配方以及自定义各个组件的指南。
常见问题
- Miles 是什么,谁开发了它?
- Miles 是由 RadixArk 公司开发的开源强化学习框架,专为前沿规模 LLM 的强化学习后训练设计,原生构建于 PyTorch 之上,整合了 SGLang、Megatron-LM 和 Ray。
- 哪些模型已使用 Miles 进行生产测试?
- Miles 已在 DeepSeek-V4、Kimi K2.5 和 K2.6、GLM-5 和 5.1 以及 Qwen3.5 和 Qwen3.6 上完成生产测试,所有这些模型的完整配方均包含在代码库中。
- Miles 支持哪些精度和 GPU 架构?
- Miles 在覆盖推出和训练的统一流水线中支持 BF16、FP8、MXFP8 和 INT4-QAT 精度,硬件上已在 NVIDIA Hopper 和 Blackwell GPU 上进行测试。