Što točno Primus Projection predviđa?

Dvije stvari: prvo, memoriju po GPU-u (parametri u BF16, optimizer state u FP32 s Adam momentima, te aktivacije za backward pass). Drugo, brzinu treninga — ili benchmarking na stvarnim GPU-ovima ili CPU-analitičku simulaciju preko GEMM i attention modeliranja.

Kolika je točnost projekcija?

Prema AMD-u, projekcije prate stvarne multi-node rezultate unutar približno 10 % pogreške. Validirano je na gustim modelima (Llama) i MoE arhitekturama (Mixtral) na MI325X i MI355X GPU-ovima.

AMD Primus Projection: predvidi LLM trening prije pokretanja

AMD je na svojem ROCm blogu predstavio Primus Projection — alat koji ML inženjerima odgovara na dva praktična pitanja prije nego što potroše sate klasterskog vremena: “Hoće li model stati u memoriju?” i “Koliko će brzo trenirati?”. Alat cilja specifično na AMD Instinct GPU akceleratore i integrira se s postojećim ROCm stackom.

Što točno alat računa?

Primus Projection kombinira analitičke formule i stvarni GPU benchmarking kako bi procijenio dvije ključne komponente svakog treninga. Memorijska strana razlaže se na tri dijela: parametri modela u BF16 formatu, optimizer state (FP32 master weights + Adam first/second momenti, sharded po data parallelism dimenziji), te aktivacije — međurezultati koje pipeline mora čuvati za backward pass, skalirani brojem mikrobatcheva i MoE routing faktorom.

Za predikciju brzine, alat nudi dva komplementarna pristupa. Može benchmarkati reprezentativne slojeve na dostupnom hardveru (čak i na samo jednom GPU-u), a zatim analitički ekstrapolirati na puni klaster vraćajući uklonjene paralelizacijske dimenzije — Pipeline → Expert → Tensor Parallelism. Alternativno, može raditi čisto CPU-simulaciju preko GEMM i attention analitičkog modeliranja, korisno kad GPU-ovi nisu dostupni.

Posebno je važna podrška za komunikacijsko modeliranje: AllReduce, All-to-All i P2P kolektivi s topologijskom svjesnošću, te pipeline shedulezi poput 1F1B, interleaved i zero-bubble, s preciznim računanjem “bubble” perioda u kojima GPU-ovi stoje.

Koliko su projekcije točne?

Prema AMD-u, projekcije prate stvarne multi-node mjerene rezultate unutar približno 10 % pogreške. Validacija je provedena na gustim modelima poput Llama i MoE arhitekturama poput Mixtrala, a testni hardver bili su MI325X i MI355X akceleratori — AMD-ovi najnoviji Instinct čipovi.

Vrijednost takve preciznosti je konkretna: ako inženjer procijeni da mu trening treba 72 sata na 512 GPU-ova, 10 % pogreške znači raspon od ~65 do ~79 sati — dovoljno za planiranje, budžetiranje i razumnu rezervaciju klasterskog vremena.

Komu je alat namijenjen?

Primarna publika su ML inženjeri i research timovi koji rade na AMD infrastrukturi — bilo da je to on-premise Instinct klaster ili najam capacity-a kod cloud partnera. Alat skida praktičnu prepreku “slijepog” pokretanja eksperimenata koja je godinama favorizirala timove s neograničenim budžetom za “probaj pa vidi” pristup.

Šira poruka jest da AMD kontinuirano popunjava softverski ekosustav oko ROCm-a — povijesno njegova slabija točka naspram Nvidijinog CUDA svijeta. Alati poput Primus Projectiona, uz sve češću Hugging Face i PyTorch podršku za ROCm, postupno smanjuju “switching cost” za timove koji razmatraju AMD kao alternativu.

AMD Primus Projection: alat za predviđanje memorije i brzine treninga LLM-ova prije pokretanja na Instinct GPU klasterima

Što točno alat računa?

Koliko su projekcije točne?

Komu je alat namijenjen?

Izvori

Povezane vijesti