Was ist Miles und wer hat es entwickelt?

Miles ist ein Open-Source-Reinforcement-Learning-Framework, das vom Unternehmen RadixArk entwickelt wurde. Es ist für RL-Post-Training von LLMs im Frontier-Maßstab konzipiert und nativ auf PyTorch aufgebaut, mit SGLang, Megatron-LM und Ray.

Welche Modelle wurden produktionsgetestet mit Miles?

Miles wurde produktionsgetestet mit DeepSeek-V4, Kimi K2.5 und K2.6, GLM-5 und 5.1 sowie Qwen3.5 und Qwen3.6. Alle diese Modelle haben fertige Rezepte im Repository enthalten.

Welche Präzisionen und GPU-Architekturen unterstützt Miles?

Miles unterstützt BF16, FP8, MXFP8 und INT4-QAT Präzisionen durch eine einheitliche Pipeline, die sowohl Rollout als auch Training abdeckt. Hardwareseitig wurde es auf NVIDIA-Hopper- und -Blackwell-GPUs getestet.

Miles: Open-Source-RL-Post-Training für Frontier-LLMs

RadixArk veröffentlicht Miles, ein Open-Source-Reinforcement-Learning-Framework, das SGLang, Megatron-LM, Ray und PyTorch in einem einheitlichen, produktionsgetesteten Stack für das Post-Training großer Sprachmodelle auf Hopper- und Blackwell-GPUs vereint.

Das Unternehmen RadixArk hat Miles als Beitrag zum PyTorch-Ökosystem veröffentlicht — ein Open-Source-Reinforcement-Learning-Framework (RL) für das Post-Training großer Sprachmodelle im Frontier-Maßstab. Miles löst eines der schwierigsten Ingenieursprobleme der modernen LLM-Entwicklung: die Koordination von Rollout-Generierung, verteiltem Training und Gewichtssynchronisierung zwischen spezialisierter Hardware auf Cluster-Ebene.

Warum ist RL-Post-Training so anspruchsvoll?

Das Training von LLMs mit Methoden wie RLHF oder regelbasiertem Reinforcement Learning ist nicht nur eine Frage des Algorithmus — es ist ein Problem verteilter Systeme. Die Rollout-Phase generiert Stichproben über Modell-Inferenz, während die Trainingsphase die Gewichte aktualisiert, und beide Prozesse müssen in Echtzeit mit minimaler Verzögerung koordiniert werden. Im Frontier-Maßstab, mit Hunderten von GPUs, entstehen unweigerlich komplexe Anforderungen an Netzwerkbandbreite, Fehlertoleranz und numerische Konsistenz.

Miles löst diese Koordinationskomplexität mit einem integrierten Stack, der vier etablierte Komponenten kombiniert: SGLang für hochdurchsatzfähige Rollout-Generierung, Megatron-LM als skalierbares Backend für verteiltes Training, Ray für Cluster-Orchestrierung und Actor-Lifecycle-Management sowie PyTorch für Modelle, Autograd und Distributionsprimitive.

Design „kleiner Kern, viele Erweiterungen”

Die Grundphilosophie von Miles ist eine kompakte Trainingsschleife mit expliziten Erweiterungspunkten. Anstatt dass Nutzer das Framework für jedes neue Experiment forken, bietet Miles steckbare Schnittstellen für Rollout-Funktionen, aufgabenspezifische Reward-Funktionen, RL-Loss-Funktionen, Stichprobenfilter und Trainings-Hooks für Metriken und Diagnose. Dieses Design gewährleistet die Reproduzierbarkeit großer Experimente ohne das Ansammeln von Ad-hoc-Infrastruktur.

Ein zentrales innovatives Element ist das MoE-aware Routing Replay — ein Mechanismus, der die Routing-Entscheidungen von MoE-Modellen (Mixture-of-Experts) über die Grenze zwischen Rollout- und Trainingsphase hinweg bewahrt. Ohne diese Konsistenz kann die Verteilung der Eingaben auf Experten zwischen der Stichprobengenerierung und der Gradientenaktualisierung destabilisiert werden, was die Konvergenz beeinträchtigt.

Asynchrones RL und Gewichtssynchronisierung

Miles unterstützt vollständig asynchrones RL mit kontinuierlichem Stichproben-Streaming: Rollout- und Trainingsphasen können vollständig getrennt oder kolokiert sein, je nach verfügbarer Hardware und Experimentanforderungen. Die Gewichtssynchronisierung zwischen den Phasen erfolgt über NCCL/RDMA-Kanäle, um die Latenz der Parameterübertragung zu minimieren. GPU-aware Ray-Placement-Gruppen stellen sicher, dass Akteure optimal gemäß der Netzwerktopologie und dem Rack-Layout platziert werden.

Für langwierige Workloads — Experimente können eine Woche und länger dauern — verwendet Miles Rays Supervisionsmodell für Fehlertoleranz: Der Ausfall eines Workers verursacht keinen Ausfall des gesamten Experiments.

Präzisionen und LoRA-Unterstützung

Miles bietet eine einheitliche Pipeline, die beide Phasen mit vollständiger Unterstützung für niedrige Präzisionen abdeckt: BF16, FP8, MXFP8 und INT4-QAT. Jede Präzision ist durch Rollout und Training verfügbar, ohne manuelle Konversionsverwaltung. Darüber hinaus wird LoRA (Low-Rank Adaptation) über beide Pfade unterstützt — was für parametereffizientes Post-Training auf Modellen praktisch ist, die nicht in volle Präzision passen.

Produktionsvalidierung auf Frontier-Modellen

Miles ist kein bloßer Forschungsprototyp. Das Framework wurde produktionsgetestet auf einigen der prominentesten Open-Source-Modelle, die in der ersten Hälfte von 2026 veröffentlicht wurden: DeepSeek-V4, Kimi K2.5 und K2.6, GLM-5 und GLM-5.1 sowie Qwen3.5 und Qwen3.6. Alle diese Modelle kommen mit fertigen Rezepten (Ready-to-Run Recipes), die im Repository enthalten sind und die Zeit erheblich verkürzen, die ein neuer Nutzer benötigt, um ein eigenes Experiment zu starten.

Die Hardware-Unterstützung umfasst NVIDIA-Hopper- und -Blackwell-GPU-Architekturen mit GPU-aware Scheduling, das die Eigenschaften beider Hardware-Generationen nutzt.

Praktische Bedeutung für die Gemeinschaft

Der Beitrag von Miles zum PyTorch-Ökosystem ist aus mehreren Gründen wichtig. Erstens konsolidiert es vier Tools, die normalerweise zusammen verwendet werden, aber ohne standardisierte Schnittstelle. Zweitens bietet es eine Referenzimplementierung für asynchrones RL, das reproduzierbar und produktionsoperational ist. Drittens bedeutet die steckbare Architektur, dass Forscher mit neuen Algorithmen experimentieren können, ohne alle Verteilungsdetails des Stacks verstehen zu müssen.

Das Projekt ist auf GitHub unter der PyTorch-Organisation verfügbar und enthält bereits Dokumentation, Rezepte für die genannten Modelle und Anleitungen zur Anpassung einzelner Komponenten.

Miles: PyTorch-natives Open-Source-Framework für RL-Post-Training von LLMs im Frontier-Maßstab

Warum ist RL-Post-Training so anspruchsvoll?

Design „kleiner Kern, viele Erweiterungen”

Asynchrones RL und Gewichtssynchronisierung

Präzisionen und LoRA-Unterstützung

Produktionsvalidierung auf Frontier-Modellen

Praktische Bedeutung für die Gemeinschaft

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten