AMD Primus Projection: alat za predviđanje memorije i brzine treninga LLM-ova prije pokretanja na Instinct GPU klasterima
Zašto je bitno
AMD Primus Projection je alat koji prije pokretanja treninga LLM-a na Instinct GPU klasterima predviđa memorijske zahtjeve i propusnost. Koristi analitičke formule uz stvarni GPU benchmark, a projekcije su unutar ~10 % izmjerenih rezultata na MI325X i MI355X akceleratorima za Llama i Mixtral modele.
AMD je na svojem ROCm blogu predstavio Primus Projection — alat koji ML inženjerima odgovara na dva praktična pitanja prije nego što potroše sate klasterskog vremena: “Hoće li model stati u memoriju?” i “Koliko će brzo trenirati?”. Alat cilja specifično na AMD Instinct GPU akceleratore i integrira se s postojećim ROCm stackom.
Što točno alat računa?
Primus Projection kombinira analitičke formule i stvarni GPU benchmarking kako bi procijenio dvije ključne komponente svakog treninga. Memorijska strana razlaže se na tri dijela: parametri modela u BF16 formatu, optimizer state (FP32 master weights + Adam first/second momenti, sharded po data parallelism dimenziji), te aktivacije — međurezultati koje pipeline mora čuvati za backward pass, skalirani brojem mikrobatcheva i MoE routing faktorom.
Za predikciju brzine, alat nudi dva komplementarna pristupa. Može benchmarkati reprezentativne slojeve na dostupnom hardveru (čak i na samo jednom GPU-u), a zatim analitički ekstrapolirati na puni klaster vraćajući uklonjene paralelizacijske dimenzije — Pipeline → Expert → Tensor Parallelism. Alternativno, može raditi čisto CPU-simulaciju preko GEMM i attention analitičkog modeliranja, korisno kad GPU-ovi nisu dostupni.
Posebno je važna podrška za komunikacijsko modeliranje: AllReduce, All-to-All i P2P kolektivi s topologijskom svjesnošću, te pipeline shedulezi poput 1F1B, interleaved i zero-bubble, s preciznim računanjem “bubble” perioda u kojima GPU-ovi stoje.
Koliko su projekcije točne?
Prema AMD-u, projekcije prate stvarne multi-node mjerene rezultate unutar približno 10 % pogreške. Validacija je provedena na gustim modelima poput Llama i MoE arhitekturama poput Mixtrala, a testni hardver bili su MI325X i MI355X akceleratori — AMD-ovi najnoviji Instinct čipovi.
Vrijednost takve preciznosti je konkretna: ako inženjer procijeni da mu trening treba 72 sata na 512 GPU-ova, 10 % pogreške znači raspon od ~65 do ~79 sati — dovoljno za planiranje, budžetiranje i razumnu rezervaciju klasterskog vremena.
Komu je alat namijenjen?
Primarna publika su ML inženjeri i research timovi koji rade na AMD infrastrukturi — bilo da je to on-premise Instinct klaster ili najam capacity-a kod cloud partnera. Alat skida praktičnu prepreku “slijepog” pokretanja eksperimenata koja je godinama favorizirala timove s neograničenim budžetom za “probaj pa vidi” pristup.
Šira poruka jest da AMD kontinuirano popunjava softverski ekosustav oko ROCm-a — povijesno njegova slabija točka naspram Nvidijinog CUDA svijeta. Alati poput Primus Projectiona, uz sve češću Hugging Face i PyTorch podršku za ROCm, postupno smanjuju “switching cost” za timove koji razmatraju AMD kao alternativu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Google na Cloud Next '26 predstavio TPU 8i i TPU 8t: specijalizirani čipovi za agentno AI računarstvo
Gemma 4 pokrenut kao Vision Language Agent lokalno na Jetson Orin Nano Super
NVIDIA i Google Cloud najavili suradnju za agentic AI i physical AI na zajedničkoj infrastrukturi