Hardware
Grafikprozessor (GPU)
Grafikprozessor mit Tausenden parallelen Kernen — heute die wichtigste Hardware für Training und Inferenz von KI-Modellen, dominant NVIDIA H100/B200.
Eine GPU (Graphics Processing Unit) wurde ursprünglich für das Rendering von 3D-Grafik entwickelt, erwies sich aber als außergewöhnlich gut geeignet für das Training neuronaler Netze. Der Grund: Deep Learning läuft auf riesige parallele Matrizenoperationen hinaus, und eine GPU besitzt Tausende kleinerer Kerne, die genau das effizient erledigen — im Gegensatz zu einer CPU mit einigen wenigen, leistungsstarken sequenziellen Kernen.
Wichtige Aspekte für KI:
- Tensor Cores / Matrix Cores — spezialisierte Einheiten für FP16/FP8/INT8-Matrixmultiplikation (NVIDIA Volta+, AMD CDNA)
- HBM-Speicher — High Bandwidth Memory mit deutlich höherem Durchsatz als Standard-GDDR; die H100 hat 80 GB HBM3, die B200 192 GB HBM3e
- Interconnect — NVLink und NVSwitch ermöglichen die Verschaltung von 8–72 GPUs zu einem logischen System für das Training
- CUDA-Ökosystem — der Software-Burggraben von NVIDIA; Alternativen (ROCm, OneAPI, Triton) gewinnen erst langsam an Boden
Die heutige KI-Ökonomie ist tief mit GPUs verflochten. NVIDIA wurde 2024/2025 dank H100/B200-Auslieferungen zum wertvollsten Unternehmen der Welt. Der Preis eines Single-GPU-Clusters für das Training eines Frontier-Modells bewegt sich in Hunderten Millionen Dollar.
KI-Beschleuniger wie TPUs (Google) und Trainium (AWS) versuchen, das Monopol zu brechen, insbesondere bei der Inferenz großer Sprachmodelle, doch beim Training von Frontier-Modellen dominieren GPUs auch 2026 weiterhin.