KI-Beschleuniger (NPU/TPU)

Ein KI-Beschleuniger ist ein speziell für neuronale Netze konzipierter Chip — anders als GPUs, die aus der Grafik hervorgegangen sind, werden Beschleuniger von Anfang an für Matrixmultiplikation, niedrigprezise Zahlen (FP8, INT8, INT4), Tensor-Operationen und spezifische Speicherzugriffsmuster optimiert.

Die wichtigsten Kategorien:

TPU (Tensor Processing Unit) — Googles Chip, eingesetzt für internes Training (Gemini) und über Google Cloud; aktuelle Generation sind TPU v5p und TPU v6e (Trillium)
NPU (Neural Processing Unit) — Bezeichnung für On-Device-Beschleuniger in Smartphones, Laptops und Edge-Geräten; Apple Neural Engine, Qualcomm Hexagon NPU, Intel/AMD NPUs in Copilot+-PCs
AWS Trainium / Inferentia — Amazons Chips für Training und Inferenz in AWS, aggressiv preislich gegen NVIDIA positioniert
Spezialisierte LLM-Chips — Groq LPU, Cerebras WSE, SambaNova RDU, alle für extremen Durchsatz bei der Inferenz ausgelegt

Die Marktlogik ist klar: GPUs sind teuer, knapp und (bis vor kurzem) fast ausschließlich von NVIDIA. Hyperscaler (Google, Amazon, Meta, Microsoft) entwickeln eigene Beschleuniger, um ihre Abhängigkeit und die an NVIDIA gezahlten Margen zu reduzieren. Auf Geräteseite ermöglicht die NPU in jedem modernen Smartphone und Laptop, kleine große Sprachmodelle lokal auszuführen, ohne Daten in die Cloud zu senden.

Die Grenze ist die Software: CUDA und das NVIDIA-Ökosystem sind weiterhin der Goldstandard, während alternative Stacks reifen.

Quellen

Siehe auch