🟢 🔧 硬件 发布于: · 1 分钟阅读 ·

AMD:阿里巴巴 ROLL 框架可在 Instinct GPU 上原生运行

编辑插图:阿里巴巴 ROLL 框架可在 Instinct GPU 上原生运行

AMD 宣布,阿里巴巴的开源强化学习框架 ROLL 现已可借助 ROCm 软件在 AMD Instinct GPU 上原生运行,无需修改代码、自定义补丁或非标准构建。此次合作包括 vLLM 兼容性、针对 Ray 的修复,以及对大语言模型分布式 RL 训练的支持。

🤖

本文由人工智能基于一手来源生成。

AMD 在其 ROCm 博客上介绍了与阿里巴巴的合作,使开源强化学习框架 ROLL 能够借助 ROCm 软件栈在 AMD Instinct GPU 上原生运行。其核心信息是,该框架可「开箱即用」,无需修改代码、自定义补丁或非标准构建。

什么是 ROLL?

ROLL 是阿里巴巴开发的开源框架,用于大语言模型(LLM)上大规模、分布式的强化学习工作流。强化学习是一种让模型通过对期望行为的奖励进行学习的方法。ROLL 支持 PPO、GRPO、DPO 和 RLHF 等算法、异步执行以及原生的智能体训练。

vLLM 和 Ray 的兼容性是如何解决的?

AMD 增加了对两代 vLLM 引擎的支持:旧版 v0 和提供更高吞吐量的新版 v1。vLLM 是一个用于语言模型快速推理的库。对于「sleep mode」行为,vLLM 0.11.0 及更高版本得到完全支持,而旧版本则需要专门的 ROCm 分支。此外,AMD 还为 Ray(2.48 及更高版本)贡献了修复,解决了 GPU 设备可见性方面的不匹配问题,即 HIP_VISIBLE_DEVICESCUDA_VISIBLE_DEVICES 变量的兼容性。

这带来了什么?

该框架支持单节点训练和跨多节点的分布式训练,并提供了针对 Qwen 2.5-7B 等模型的配置示例以及可调的 GPU 显存利用率参数。对于 AMD 硬件用户而言,这意味着他们可以运行高要求的语言模型 RL 训练,而无需依赖他人的硬件生态系统。

常见问题

什么是 ROLL?
ROLL 是阿里巴巴开发的开源强化学习框架,用于语言模型上大规模、分布式的 RL 工作负载,支持 PPO、GRPO、DPO 和 RLHF。
在 AMD GPU 上运行需要修改代码吗?
不需要。AMD 表示 ROLL 借助 ROCm 可在 Instinct GPU 上开箱即用,无需修改代码、自定义补丁或非标准构建。