🟢 🔧 Hardware subota, 25. travnja 2026. · 2 min čitanja

AMD Primus Projection: alat za predviđanje memorije i brzine treninga LLM-ova prije pokretanja na Instinct GPU klasterima

Editorial illustration: AMD Primus Projection — predviđanje LLM treninga

Zašto je bitno

AMD Primus Projection je alat koji prije pokretanja treninga LLM-a na Instinct GPU klasterima predviđa memorijske zahtjeve i propusnost. Koristi analitičke formule uz stvarni GPU benchmark, a projekcije su unutar ~10 % izmjerenih rezultata na MI325X i MI355X akceleratorima za Llama i Mixtral modele.

AMD je na svojem ROCm blogu predstavio Primus Projection — alat koji ML inženjerima odgovara na dva praktična pitanja prije nego što potroše sate klasterskog vremena: “Hoće li model stati u memoriju?” i “Koliko će brzo trenirati?”. Alat cilja specifično na AMD Instinct GPU akceleratore i integrira se s postojećim ROCm stackom.

Što točno alat računa?

Primus Projection kombinira analitičke formule i stvarni GPU benchmarking kako bi procijenio dvije ključne komponente svakog treninga. Memorijska strana razlaže se na tri dijela: parametri modela u BF16 formatu, optimizer state (FP32 master weights + Adam first/second momenti, sharded po data parallelism dimenziji), te aktivacije — međurezultati koje pipeline mora čuvati za backward pass, skalirani brojem mikrobatcheva i MoE routing faktorom.

Za predikciju brzine, alat nudi dva komplementarna pristupa. Može benchmarkati reprezentativne slojeve na dostupnom hardveru (čak i na samo jednom GPU-u), a zatim analitički ekstrapolirati na puni klaster vraćajući uklonjene paralelizacijske dimenzije — Pipeline → Expert → Tensor Parallelism. Alternativno, može raditi čisto CPU-simulaciju preko GEMM i attention analitičkog modeliranja, korisno kad GPU-ovi nisu dostupni.

Posebno je važna podrška za komunikacijsko modeliranje: AllReduce, All-to-All i P2P kolektivi s topologijskom svjesnošću, te pipeline shedulezi poput 1F1B, interleaved i zero-bubble, s preciznim računanjem “bubble” perioda u kojima GPU-ovi stoje.

Koliko su projekcije točne?

Prema AMD-u, projekcije prate stvarne multi-node mjerene rezultate unutar približno 10 % pogreške. Validacija je provedena na gustim modelima poput Llama i MoE arhitekturama poput Mixtrala, a testni hardver bili su MI325X i MI355X akceleratori — AMD-ovi najnoviji Instinct čipovi.

Vrijednost takve preciznosti je konkretna: ako inženjer procijeni da mu trening treba 72 sata na 512 GPU-ova, 10 % pogreške znači raspon od ~65 do ~79 sati — dovoljno za planiranje, budžetiranje i razumnu rezervaciju klasterskog vremena.

Komu je alat namijenjen?

Primarna publika su ML inženjeri i research timovi koji rade na AMD infrastrukturi — bilo da je to on-premise Instinct klaster ili najam capacity-a kod cloud partnera. Alat skida praktičnu prepreku “slijepog” pokretanja eksperimenata koja je godinama favorizirala timove s neograničenim budžetom za “probaj pa vidi” pristup.

Šira poruka jest da AMD kontinuirano popunjava softverski ekosustav oko ROCm-a — povijesno njegova slabija točka naspram Nvidijinog CUDA svijeta. Alati poput Primus Projectiona, uz sve češću Hugging Face i PyTorch podršku za ROCm, postupno smanjuju “switching cost” za timove koji razmatraju AMD kao alternativu.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.