Miles:フロンティア規模のLLMのRLポストトレーニング向けPyTorchネイティブオープンソースフレームワーク
RadixArkはMilesを発表した。SGLang、Megatron-LM、Ray、PyTorchを統一された本番検証済みスタックに統合し、HopperおよびBlackwell GPUでの大規模言語モデルのポストトレーニングを行うオープンソース強化学習フレームワークだ。
この記事はAIにより一次情報源から生成されました。
RadixArkはMilesを発表した。フロンティア規模の大規模言語モデルのポストトレーニング向けオープンソース強化学習(RL)フレームワークで、PyTorchエコシステムへの貢献として公開された。Milesは現代LLM開発において最も困難なエンジニアリング上の問題の一つを解決する:クラスター規模で特化したハードウェア上でのrollout生成、分散トレーニング、重み同期の調整だ。
RLポストトレーニングがなぜこれほど困難なのか?
RLHFやルールベース強化学習などの手法によるLLMのトレーニングは、単なるアルゴリズムの問題ではなく——分散システムの問題だ。Rolloutフェーズはモデル推論を使ってサンプルを生成し、トレーニングフェーズは重みを更新するが、両プロセスはリアルタイムで最小限の遅延で調整される必要がある。フロンティア規模では、数百のGPUを使用すると、ネットワーク帯域幅、フォールトトレランス、数値的一貫性に関する複雑な要件が避けられない。
Milesはその調整の複雑さを、四つの確立されたコンポーネントを組み合わせた一つの統合スタックで解決する:高スループットrollout生成向けのSGLang、スケーラブルな分散トレーニングバックエンドとしてのMegatron-LM、クラスターのオーケストレーションとアクターのライフサイクル管理のためのRay、そしてモデル・autograd・分散プリミティブのためのPyTorchだ。
「小さなコア、多くの拡張」の設計哲学
Milesの基本的な哲学は、明示的な拡張ポイントを持つコンパクトなトレーニングループだ。各新しい実験のためにフレームワークをフォークする代わりに、Milesはrollout関数、タスク固有の報酬関数、RL損失関数、サンプルフィルター、メトリクスと診断のためのトレーニングフックのためのプラグ可能なインターフェースを提供する。この設計はアドホックなインフラを積み重ねることなく大規模実験の再現性を確保する。
主要な革新的要素の一つはMoE-aware Routing Replay——RolloutフェーズとトレーニングフェーズをまたいでMoE(Mixture-of-Experts)モデルのルーティング決定を保持するメカニズムだ。この一貫性がなければ、サンプル生成と勾配更新の間でエキスパートへの入力分布が不安定化し、収束を損なう可能性がある。
非同期RLと重み同期
MilesはサンプルのContinuous Streamingによる完全な非同期RLをサポートしている:Rolloutフェーズとトレーニングフェーズは、利用可能なハードウェアと実験要件に応じて完全に分離またはコロケーションが可能だ。フェーズ間の重み同期はNCCL/RDMAチャネルを通じて行われ、パラメータ転送のレイテンシーを最小化する。GPU-aware Rayの配置グループにより、アクターがネットワークトポロジーとラックレイアウトを考慮して最適に配置されることが保証される。
一週間以上続く可能性がある長時間ワークロードに対して、Milesはワーカーの障害に対するフォールトトレランスのためにRayのスーパービジョンモデルを使用する:一つのワーカーの障害が実験全体の失敗を引き起こさない。
精度とLoRAサポート
Milesは両フェーズをカバーし、低精度を完全にサポートする統一パイプラインを提供する:BF16、FP8、MXFP8、INT4-QAT。各精度は手動変換管理なしにRolloutとトレーニングを通じて利用できる。さらに、LoRA(Low-Rank Adaptation)が両パスでサポートされている——完全な精度では収まりきらないモデルのParameter-efficientなポストトレーニングに実用的だ。
フロンティアモデルでの本番検証
Milesは単なる研究プロトタイプではない。フレームワークは2026年前半に公開された最も著名なオープンソースモデルのいくつかで本番テスト済みだ:DeepSeek-V4、Kimi K2.5とK2.6、GLM-5とGLM-5.1、Qwen3.5とQwen3.6。これらのモデルはすべてリポジトリに含まれる既製レシピ(ready-to-run recipes)を持ち、新しいユーザーが自身の実験を開始するために必要な時間を大幅に短縮する。
ハードウェアサポートはNVIDIA HopperとBlackwell GPUアーキテクチャをカバーし、GPU-awareスケジューリングが両世代のハードウェアの特性を活かす。
コミュニティにとっての実用的意義
MilesのPyTorchエコシステムへの貢献は複数の理由で重要だ。第一に、通常は一緒に使われるが標準化されたインターフェースなしに使われる四つのツールを統合する。第二に、本番環境で再現可能かつ運用可能な非同期RLのリファレンス実装を提供する。第三に、プラグ可能なアーキテクチャにより研究者がスタックのすべての分散詳細を理解することなく新しいアルゴリズムを実験できる。
プロジェクトはPyTorch組織のGitHubで利用可能で、すでにドキュメント、前述のモデルのレシピ、個々のコンポーネントのカスタマイズガイドが含まれている。
よくある質問
- Milesとは何で、誰が開発したか?
- MilesはRadixArkが開発したオープンソース強化学習フレームワークだ。フロンティア規模のLLMのRLポストトレーニング向けに設計され、SGLang、Megatron-LM、RayをPyTorchネイティブで組み合わせている。
- どのモデルがMilesで本番テスト済みか?
- MilesはDeepSeek-V4、Kimi K2.5とK2.6、GLM-5と5.1、Qwen3.5とQwen3.6で本番テスト済みだ。これらのモデルはすべてリポジトリに含まれる既製レシピを持つ。
- Milesはどの精度とGPUアーキテクチャをサポートするか?
- MilesはrolloutとトレーニングをカバーするStatistical統一パイプラインを通じてBF16、FP8、MXFP8、INT4-QATの精度をサポートする。ハードウェアはNVIDIA HopperとBlackwell GPUでテスト済みだ。