Grafikprozessor (GPU)

Eine GPU (Graphics Processing Unit) wurde ursprünglich für das Rendering von 3D-Grafik entwickelt, erwies sich aber als außergewöhnlich gut geeignet für das Training neuronaler Netze. Der Grund: Deep Learning läuft auf riesige parallele Matrizenoperationen hinaus, und eine GPU besitzt Tausende kleinerer Kerne, die genau das effizient erledigen — im Gegensatz zu einer CPU mit einigen wenigen, leistungsstarken sequenziellen Kernen.

Wichtige Aspekte für KI:

Tensor Cores / Matrix Cores — spezialisierte Einheiten für FP16/FP8/INT8-Matrixmultiplikation (NVIDIA Volta+, AMD CDNA)
HBM-Speicher — High Bandwidth Memory mit deutlich höherem Durchsatz als Standard-GDDR; die H100 hat 80 GB HBM3, die B200 192 GB HBM3e
Interconnect — NVLink und NVSwitch ermöglichen die Verschaltung von 8–72 GPUs zu einem logischen System für das Training
CUDA-Ökosystem — der Software-Burggraben von NVIDIA; Alternativen (ROCm, OneAPI, Triton) gewinnen erst langsam an Boden

Die heutige KI-Ökonomie ist tief mit GPUs verflochten. NVIDIA wurde 2024/2025 dank H100/B200-Auslieferungen zum wertvollsten Unternehmen der Welt. Der Preis eines Single-GPU-Clusters für das Training eines Frontier-Modells bewegt sich in Hunderten Millionen Dollar.

KI-Beschleuniger wie TPUs (Google) und Trainium (AWS) versuchen, das Monopol zu brechen, insbesondere bei der Inferenz großer Sprachmodelle, doch beim Training von Frontier-Modellen dominieren GPUs auch 2026 weiterhin.

Quellen

Siehe auch