Was genau sagt Primus Projection vorher?

Zwei Dinge: erstens den Speicher pro GPU (Modellparameter in BF16, Optimiererzustand in FP32 mit Adam-Momenten sowie Aktivierungen für den Rückwärtsdurchlauf). Zweitens die Trainingsgeschwindigkeit — entweder durch Benchmarking auf echten GPUs oder über CPU-analytische Simulation durch GEMM- und Attention-Modellierung.

AMD Primus Projection: LLM-Training vor dem Start vorhersagen

Q: Wie genau sind die Projektionen?

Laut AMD liegen die Projektionen innerhalb von etwa 10 % Abweichung gegenüber realen Multi-Node-Ergebnissen. Validiert wurde auf dichten Modellen (Llama) und MoE-Architekturen (Mixtral) auf MI325X- und MI355X-GPUs.

AMD hat auf seinem ROCm-Blog Primus Projection vorgestellt — ein Werkzeug, das ML-Ingenieuren zwei praktische Fragen beantwortet, bevor sie Stunden an Cluster-Zeit verbrauchen: „Passt das Modell in den Speicher?” und „Wie schnell wird das Training sein?”. Das Werkzeug zielt speziell auf AMD Instinct-GPU-Beschleuniger ab und integriert sich in den bestehenden ROCm-Stack.

Was berechnet das Werkzeug?

Primus Projection kombiniert analytische Formeln und echtes GPU-Benchmarking, um zwei Schlüsselkomponenten eines jeden Trainings zu schätzen. Die Speicherseite gliedert sich in drei Teile: Modellparameter im BF16-Format, Optimiererzustand (FP32-Mastergewichte + Adam-Erst-/Zweitmomente, geshardet entlang der Datenparallelismus-Dimension) sowie Aktivierungen — Zwischenergebnisse, die die Pipeline für den Rückwärtsdurchlauf vorhalten muss, skaliert nach der Anzahl der Mikro-Batches und dem MoE-Routing-Faktor.

Für die Geschwindigkeitsvorhersage bietet das Werkzeug zwei komplementäre Ansätze. Es kann repräsentative Schichten auf verfügbarer Hardware benchmarken (selbst auf einer einzelnen GPU) und dann analytisch auf den vollständigen Cluster hochrechnen, indem es die entfernten Parallelismus-Dimensionen rückwärts anwendet — Pipeline → Expert → Tensor Parallelism. Alternativ kann es eine reine CPU-Simulation über GEMM- und Attention-analytische Modellierung durchführen, nützlich wenn keine GPUs verfügbar sind.

Besonders bemerkenswert ist die Unterstützung für Kommunikationsmodellierung: AllReduce-, All-to-All- und P2P-Kollektive mit Topologiebewusstsein sowie Pipeline-Zeitpläne wie 1F1B, Interleaved und Zero-Bubble, mit präziser Berechnung der „Bubble”-Perioden, in denen GPUs im Leerlauf sind.

Wie genau sind die Projektionen?

Laut AMD liegen die Projektionen innerhalb von etwa 10 % Abweichung gegenüber realen Multi-Node-Messergebnissen. Die Validierung wurde an dichten Modellen wie Llama und MoE-Architekturen wie Mixtral durchgeführt, als Testhardware dienten MI325X- und MI355X-Beschleuniger — AMDs neueste Instinct-Chips.

Der praktische Wert dieser Präzision ist konkret: Wenn ein Ingenieur schätzt, dass das Training 72 Stunden auf 512 GPUs benötigt, bedeutet ein 10-Prozent-Fehler eine Spanne von ~65 bis ~79 Stunden — ausreichend für Planung, Budgetierung und vernünftige Cluster-Zeit-Reservierung.

Für wen ist das Werkzeug gedacht?

Die primäre Zielgruppe sind ML-Ingenieure und Forschungsteams, die auf AMD-Infrastruktur arbeiten — ob auf einem eigenen Instinct-Cluster oder bei einem Cloud-Partner gemieteter Kapazität. Das Werkzeug beseitigt die praktische Hürde des „blinden” Experiment-Starts, der jahrelang Teams mit unbegrenztem Budget für den „Versuch und Irrtum”-Ansatz begünstigte.

Die breitere Botschaft ist, dass AMD kontinuierlich das Software-Ökosystem rund um ROCm ausbaut — historisch sein schwächerer Punkt gegenüber Nvidias CUDA-Welt. Werkzeuge wie Primus Projection, kombiniert mit zunehmend häufigerer Hugging Face- und PyTorch-Unterstützung für ROCm, reduzieren schrittweise die Wechselkosten für Teams, die AMD als Alternative in Betracht ziehen.

AMD Primus Projection: Werkzeug zur Vorhersage von LLM-Trainingsanforderungen vor dem Start auf Instinct-GPU-Clustern

Was berechnet das Werkzeug?

Wie genau sind die Projektionen?

Für wen ist das Werkzeug gedacht?

Quellen

Verwandte Nachrichten