🟢 🔧 Hardware Samstag, 25. April 2026 · 2 Min. Lesezeit

AMD Primus Projection: Werkzeug zur Vorhersage von LLM-Trainingsanforderungen vor dem Start auf Instinct-GPU-Clustern

Editorial illustration: AMD Primus Projection — LLM-Trainingsvorhersage

Warum es wichtig ist

AMD Primus Projection ist ein Werkzeug, das vor dem Start eines LLM-Trainings auf Instinct-GPU-Clustern Speicherbedarf und Durchsatz vorhersagt. Es kombiniert analytische Formeln mit echtem GPU-Benchmarking, und die Projektionen liegen innerhalb von ~10 % der gemessenen Ergebnisse auf MI325X- und MI355X-Beschleunigern für Llama- und Mixtral-Modelle.

AMD hat auf seinem ROCm-Blog Primus Projection vorgestellt — ein Werkzeug, das ML-Ingenieuren zwei praktische Fragen beantwortet, bevor sie Stunden an Cluster-Zeit verbrauchen: „Passt das Modell in den Speicher?” und „Wie schnell wird das Training sein?”. Das Werkzeug zielt speziell auf AMD Instinct-GPU-Beschleuniger ab und integriert sich in den bestehenden ROCm-Stack.

Was berechnet das Werkzeug?

Primus Projection kombiniert analytische Formeln und echtes GPU-Benchmarking, um zwei Schlüsselkomponenten eines jeden Trainings zu schätzen. Die Speicherseite gliedert sich in drei Teile: Modellparameter im BF16-Format, Optimiererzustand (FP32-Mastergewichte + Adam-Erst-/Zweitmomente, geshardet entlang der Datenparallelismus-Dimension) sowie Aktivierungen — Zwischenergebnisse, die die Pipeline für den Rückwärtsdurchlauf vorhalten muss, skaliert nach der Anzahl der Mikro-Batches und dem MoE-Routing-Faktor.

Für die Geschwindigkeitsvorhersage bietet das Werkzeug zwei komplementäre Ansätze. Es kann repräsentative Schichten auf verfügbarer Hardware benchmarken (selbst auf einer einzelnen GPU) und dann analytisch auf den vollständigen Cluster hochrechnen, indem es die entfernten Parallelismus-Dimensionen rückwärts anwendet — Pipeline → Expert → Tensor Parallelism. Alternativ kann es eine reine CPU-Simulation über GEMM- und Attention-analytische Modellierung durchführen, nützlich wenn keine GPUs verfügbar sind.

Besonders bemerkenswert ist die Unterstützung für Kommunikationsmodellierung: AllReduce-, All-to-All- und P2P-Kollektive mit Topologiebewusstsein sowie Pipeline-Zeitpläne wie 1F1B, Interleaved und Zero-Bubble, mit präziser Berechnung der „Bubble”-Perioden, in denen GPUs im Leerlauf sind.

Wie genau sind die Projektionen?

Laut AMD liegen die Projektionen innerhalb von etwa 10 % Abweichung gegenüber realen Multi-Node-Messergebnissen. Die Validierung wurde an dichten Modellen wie Llama und MoE-Architekturen wie Mixtral durchgeführt, als Testhardware dienten MI325X- und MI355X-Beschleuniger — AMDs neueste Instinct-Chips.

Der praktische Wert dieser Präzision ist konkret: Wenn ein Ingenieur schätzt, dass das Training 72 Stunden auf 512 GPUs benötigt, bedeutet ein 10-Prozent-Fehler eine Spanne von ~65 bis ~79 Stunden — ausreichend für Planung, Budgetierung und vernünftige Cluster-Zeit-Reservierung.

Für wen ist das Werkzeug gedacht?

Die primäre Zielgruppe sind ML-Ingenieure und Forschungsteams, die auf AMD-Infrastruktur arbeiten — ob auf einem eigenen Instinct-Cluster oder bei einem Cloud-Partner gemieteter Kapazität. Das Werkzeug beseitigt die praktische Hürde des „blinden” Experiment-Starts, der jahrelang Teams mit unbegrenztem Budget für den „Versuch und Irrtum”-Ansatz begünstigte.

Die breitere Botschaft ist, dass AMD kontinuierlich das Software-Ökosystem rund um ROCm ausbaut — historisch sein schwächerer Punkt gegenüber Nvidias CUDA-Welt. Werkzeuge wie Primus Projection, kombiniert mit zunehmend häufigerer Hugging Face- und PyTorch-Unterstützung für ROCm, reduzieren schrittweise die Wechselkosten für Teams, die AMD als Alternative in Betracht ziehen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.