AI akcelerator (NPU/TPU)

AI akcelerator je čip namjenski projektiran za neuronske mreže — za razliku od GPU-a koji su evoluirali iz grafike, akceleratori su od početka optimizirani za matrično množenje, niskoprecizne brojeve (FP8, INT8, INT4), tensor operacije i specifične memorijske obrasce.

Glavne kategorije:

TPU (Tensor Processing Unit) — Googleov čip, korišten za interno treniranje (Gemini) i kroz Google Cloud; aktualna generacija je TPU v5p i TPU v6e (Trillium)
NPU (Neural Processing Unit) — termin za on-device akceleratore u mobitelima, laptopima i edge uređajima; Apple Neural Engine, Qualcomm Hexagon NPU, Intel/AMD NPU-ovi u Copilot+ PC-ovima
AWS Trainium / Inferentia — Amazonovi čipovi za trening i inferenciju u AWS-u, agresivno cjenovno pozicionirani protiv NVIDIA-e
Specijalizirani LLM čipovi — Groq LPU, Cerebras WSE, SambaNova RDU, sve dizajnirani za ekstremnu propusnost na inferenciji

Tržišna logika je jasna: GPU-ovi su skupi, oskudni i (sve do nedavno) skoro 100% NVIDIA. Hyperscaleri (Google, Amazon, Meta, Microsoft) razvijaju vlastite akceleratore da smanje ovisnost i marže koje plaćaju NVIDIA-i. Na strani uređaja, NPU u svakom modernom telefonu i laptopu omogućuje pokretanje malih velikih jezičnih modela lokalno, bez slanja podataka u cloud.

Granica je softver: CUDA i NVIDIA-in ekosustav i dalje su zlatni standard, dok alternativni stackovi sazrijevaju.

Izvori

Vidi također