🟡 📦 Open Source Objavljeno: · 3 min čitanja ·

Miles: PyTorch-nativni open-source okvir za RL post-training LLM-ova frontier razmjera

Editorial ilustracija: PyTorch-nativni Miles stog za post-treniranje s pojačanim učenjem i kernel fuzijom

RadixArk objavljuje Miles, open-source reinforcement learning okvir koji spaja SGLang, Megatron-LM, Ray i PyTorch u jedinstven produkcijski-testirani stack za post-training velikih jezičnih modela na Hopper i Blackwell GPU-ima.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Tvrtka RadixArk objavila je Miles, open-source reinforcement learning (RL) okvir za post-training velikih jezičnih modela frontier razmjera, kao doprinos PyTorch ekosustavu. Miles rješava jedan od najtežih inženjerskih problema suvremenog LLM razvoja: koordinaciju rollout generiranja, distribuiranog treninga i sinkronizacije težina između specijaliziranog hardvera na razini klasterâ.

Zašto je RL post-training toliko zahtjevan?

Treniranje LLM-ova metodama poput RLHF-a ili rule-based reinforcement learninga nije samo pitanje algoritma — to je problem distribuiranih sustava. Rollout faza generira uzorke koristeći zaključivanje modela, dok trening faza ažurira težine, a oba procesa moraju biti koordinirana u realnom vremenu uz minimalan zastoj. Na frontier razmjerama, uz stotine GPU-a, neizbježni su kompleksni zahtjevi za mrežnom propusnošću, tolerancijom grešaka i numeričkom konzistentnošću.

Miles rješava tu koordinacijsku složenost jednim integriranim stackom koji kombinira četiri etablirane komponente: SGLang za visokoprotočno rollout generiranje, Megatron-LM kao skalabilni backend distribuiranog treninga, Ray za orkestraciju klastera i upravljanje životnim ciklusom actora, te PyTorch za modele, autograd i distribucijske primitive.

Dizajn „mali jezgra, mnogo proširenja”

Osnovna filosofija Milesa je kompaktna trening petlja s eksplicitnim točkama proširenja. Umjesto da korisnici forkaju okvir za svaki novi eksperiment, Miles nudi pluggable sučelja za rollout funkcije, reward funkcije specifične za zadatak, RL loss funkcije, filtere uzoraka i trening hookove za metrike i dijagnostiku. Ovakav dizajn osigurava reproducibilnost velikih eksperimenata bez nagomilavanja ad hoc infrastrukture.

Jedan od ključnih inovativnih elemenata je MoE-aware Routing Replay — mehanizam koji čuva routing odluke MoE (Mixture-of-Experts) modela kroz granicu između rollout i trening faze. Bez ove konzistencije, distribucija ulaza po ekspertima može se destabilizirati između generiranja uzoraka i ažuriranja gradijenta, što narušava konvergenciju.

Asinkroni RL i sinkronizacija težina

Miles podržava potpuno asinkroni RL s kontinuiranim streamanjem uzoraka: rollout i trening faze mogu biti potpuno odvojene ili kolocirane, ovisno o dostupnom hardveru i zahtjevima eksperimenta. Sinkronizacija težina između faza obavlja se kroz NCCL/RDMA kanale, minimizirajući latenciju prijenosa parametara. GPU-aware Ray placement grupe osiguravaju da su actori smješteni optimalno s obzirom na topologiju mreže i rack layout.

Za dugotrajne workloadove — eksperimenti mogu trajati tjedan dana i dulje — Miles koristi Rayev supervizijski model za toleranciju grešaka: pad jednog radnika ne uzrokuje pad cijelog eksperimenta.

Preciznosti i LoRA podrška

Miles pruža jedinstven pipeline koji pokriva obje faze s punom podrškom za niske preciznosti: BF16, FP8, MXFP8 i INT4-QAT. Svaka preciznost je dostupna kroz rollout i trening bez ručnog upravljanja konverzijama. Osim toga, LoRA (Low-Rank Adaptation) podržan je kroz oba puta — što je praktično za parameter-efficient post-training na modelima koji ne stanu u punu preciznost.

Produkcijska validacija na frontier modelima

Miles nije samo istraživački prototip. Okvir je produkcijski testiran na nekim od najistaknijih open-source modela koji su objavljeni u prvoj polovici 2026.: DeepSeek-V4, Kimi K2.5 i K2.6, GLM-5 i GLM-5.1 te Qwen3.5 i Qwen3.6. Svi ti modeli dolaze s gotovim receptima (ready-to-run recipes) uključenim u repozitorij, što znatno skraćuje vrijeme potrebno da novi korisnik pokrene vlastiti eksperiment.

Hardverska podrška obuhvaća NVIDIA Hopper i Blackwell GPU arhitekture, uz GPU-aware raspoređivanje koje iskorištava karakteristike obje generacije hardvera.

Praktični značaj za zajednicu

Doprinos Milesa PyTorch ekosustavu važan je iz nekoliko razloga. Prvo, konsolidira četiri alata koji se inače koriste zajedno, ali bez standardiziranog sučelja. Drugo, pruža referentnu implementaciju za asinkroni RL koji je reproduktivan i operativan u produkciji. Treće, pluggable arhitektura znači da istraživači mogu eksperimentirati s novim algoritmima bez potrebe da razumiju sve distribucijske detalje stacka.

Projekt je dostupan na GitHubu pod PyTorch organizacijom i već sada uključuje dokumentaciju, recepte za navedene modele i vodiče za prilagodbu pojedinih komponenti.

Česta pitanja

Što je Miles i tko ga je razvio?
Miles je open-source reinforcement learning okvir koji je razvila tvrtka RadixArk. Dizajniran je za RL post-training LLM-ova frontier razmjera i izgrađen je nativno na PyTorchu, kombinirajući SGLang, Megatron-LM i Ray.
Koji modeli su produkcijski testirani s Milesom?
Miles je produkcijski testiran na DeepSeek-V4, Kimi K2.5 i K2.6, GLM-5 i 5.1 te Qwen3.5 i Qwen3.6. Svi ti modeli imaju gotove recepte uključene u repozitorij.
Koje preciznosti i GPU arhitekture Miles podržava?
Miles podržava BF16, FP8, MXFP8 i INT4-QAT preciznosti kroz jedinstveni pipeline koji pokriva i rollout i trening. Hardverski je testiran na NVIDIA Hopper i Blackwell GPU-ima.