AMD: Alibaba の ROLL フレームワークが Instinct GPU 上でネイティブ動作
AMD は、Alibaba のオープンソース強化学習フレームワーク ROLL が、コード変更・カスタムパッチ・非標準ビルドなしに、ROCm ソフトウェアとともに AMD Instinct GPU 上でネイティブに動作するようになったと発表した。協業には vLLM 互換性、Ray 向けの修正、大規模言語モデルの分散 RL トレーニングへの対応が含まれる。
この記事はAIにより一次情報源から生成されました。
AMD は自社の ROCm ブログで、Alibaba との協業について解説した。これにより、オープンソースの強化学習フレームワーク ROLL が、ROCm ソフトウェアスタックとともに AMD Instinct GPU 上でネイティブに動作するようになった。重要なメッセージは、このフレームワークがコード変更・カスタムパッチ・非標準ビルドなしに「そのまま (out-of-the-box)」動作する点である。
ROLL とは何か?
ROLL は、大規模言語モデル (LLM) における大規模・分散の強化学習ワークフロー向けに Alibaba が開発したオープンソースフレームワークである。強化学習とは、望ましい振る舞いに対する報酬を通じてモデルが学習する手法だ。ROLL は PPO、GRPO、DPO、RLHF といったアルゴリズム、非同期実行、そしてネイティブなエージェント型トレーニングをサポートする。
vLLM と Ray の互換性はどのように解決されたのか?
AMD は、vLLM エンジンの両世代、すなわちレガシーの v0 と、より高いスループットを提供する新しい v1 への対応を追加した。vLLM は言語モデルの高速推論のためのライブラリである。「sleep mode」の挙動については、vLLM バージョン 0.11.0 以降が完全にサポートされ、それより古いバージョンは専用の ROCm ブランチを必要とする。さらに AMD は Ray (バージョン 2.48 以降) 向けの修正に貢献し、GPU デバイスの可視性の不一致、すなわち HIP_VISIBLE_DEVICES と CUDA_VISIBLE_DEVICES の変数互換性を解決した。
これによって何が可能になるのか?
このフレームワークは単一ノードでのトレーニングと、複数ノードにまたがる分散トレーニングをサポートし、Qwen 2.5-7B のようなモデル向けの設定例や、調整可能な GPU メモリ利用率パラメータを備えている。AMD 機器のユーザーにとっては、他社のハードウェアエコシステムに依存することなく、言語モデルの負荷の高い RL トレーニングを実行できることを意味する。
よくある質問
- ROLL とは何ですか?
- ROLL は、言語モデルにおける大規模・分散の RL ワークロード向けに Alibaba が開発したオープンソースの強化学習フレームワークで、PPO、GRPO、DPO、RLHF をサポートします。
- AMD GPU で実行するためにコードを変更する必要がありますか?
- いいえ。AMD は、ROLL がコード変更・カスタムパッチ・非標準ビルドなしに、ROCm とともに Instinct GPU 上で「そのまま (out-of-the-box)」動作すると述べています。