ハードウェア
AIアクセラレータ(NPU/TPU)
AIワークロード専用のチップで、モバイルのNPU、GoogleのTPU、AWS Trainiumなどが代表例で、ドル当たりGPUより速く効率的なことが多いです。
AIアクセラレータは、ニューラルネットワーク用に専用設計されたチップです — グラフィックスから進化したGPUとは異なり、アクセラレータは最初から行列乗算、低精度数(FP8、INT8、INT4)、テンソル演算、特定のメモリパターンに最適化されています。
主なカテゴリ:
- TPU(Tensor Processing Unit) — Googleのチップ。社内学習(Gemini)とGoogle Cloudを通じて使用。現行世代はTPU v5pおよびTPU v6e(Trillium)
- NPU(Neural Processing Unit) — モバイル、ラップトップ、エッジデバイス内のオンデバイスアクセラレータの用語。Apple Neural Engine、Qualcomm Hexagon NPU、Copilot+ PCのIntel/AMD NPU
- AWS Trainium / Inferentia — AWSにおける学習と推論のためのAmazonのチップ。NVIDIAに対して積極的に価格設定されています
- 専用LLMチップ — Groq LPU、Cerebras WSE、SambaNova RDU。すべて推論での極端なスループット用に設計されています
市場のロジックは明確です。GPUは高価で、不足しており、(ごく最近まで)ほぼ100%NVIDIA製でした。ハイパースケーラー(Google、Amazon、Meta、Microsoft)は、依存関係とNVIDIAに支払うマージンを減らすために、独自のアクセラレータを開発しています。デバイス側では、すべての現代の電話とラップトップにあるNPUが、データをクラウドに送信せずに小さな大規模言語モデルをローカルで実行することを可能にします。
境界はソフトウェアです。CUDAとNVIDIAのエコシステムは依然としてゴールドスタンダードであり、代替スタックは成熟しつつあります。