AMD:阿里巴巴 ROLL 框架可在 Instinct GPU 上原生运行
AMD 宣布,阿里巴巴的开源强化学习框架 ROLL 现已可借助 ROCm 软件在 AMD Instinct GPU 上原生运行,无需修改代码、自定义补丁或非标准构建。此次合作包括 vLLM 兼容性、针对 Ray 的修复,以及对大语言模型分布式 RL 训练的支持。
本文由人工智能基于一手来源生成。
AMD 在其 ROCm 博客上介绍了与阿里巴巴的合作,使开源强化学习框架 ROLL 能够借助 ROCm 软件栈在 AMD Instinct GPU 上原生运行。其核心信息是,该框架可「开箱即用」,无需修改代码、自定义补丁或非标准构建。
什么是 ROLL?
ROLL 是阿里巴巴开发的开源框架,用于大语言模型(LLM)上大规模、分布式的强化学习工作流。强化学习是一种让模型通过对期望行为的奖励进行学习的方法。ROLL 支持 PPO、GRPO、DPO 和 RLHF 等算法、异步执行以及原生的智能体训练。
vLLM 和 Ray 的兼容性是如何解决的?
AMD 增加了对两代 vLLM 引擎的支持:旧版 v0 和提供更高吞吐量的新版 v1。vLLM 是一个用于语言模型快速推理的库。对于「sleep mode」行为,vLLM 0.11.0 及更高版本得到完全支持,而旧版本则需要专门的 ROCm 分支。此外,AMD 还为 Ray(2.48 及更高版本)贡献了修复,解决了 GPU 设备可见性方面的不匹配问题,即 HIP_VISIBLE_DEVICES 和 CUDA_VISIBLE_DEVICES 变量的兼容性。
这带来了什么?
该框架支持单节点训练和跨多节点的分布式训练,并提供了针对 Qwen 2.5-7B 等模型的配置示例以及可调的 GPU 显存利用率参数。对于 AMD 硬件用户而言,这意味着他们可以运行高要求的语言模型 RL 训练,而无需依赖他人的硬件生态系统。
常见问题
- 什么是 ROLL?
- ROLL 是阿里巴巴开发的开源强化学习框架,用于语言模型上大规模、分布式的 RL 工作负载,支持 PPO、GRPO、DPO 和 RLHF。
- 在 AMD GPU 上运行需要修改代码吗?
- 不需要。AMD 表示 ROLL 借助 ROCm 可在 Instinct GPU 上开箱即用,无需修改代码、自定义补丁或非标准构建。