Hardver
AI akcelerator (NPU/TPU)
Specijalizirani čip za AI radne opterećenja — NPU u mobitelima, TPU kod Googlea, AWS Trainium — često brži i učinkovitiji od GPU-a po dolaru.
AI akcelerator je čip namjenski projektiran za neuronske mreže — za razliku od GPU-a koji su evoluirali iz grafike, akceleratori su od početka optimizirani za matrično množenje, niskoprecizne brojeve (FP8, INT8, INT4), tensor operacije i specifične memorijske obrasce.
Glavne kategorije:
- TPU (Tensor Processing Unit) — Googleov čip, korišten za interno treniranje (Gemini) i kroz Google Cloud; aktualna generacija je TPU v5p i TPU v6e (Trillium)
- NPU (Neural Processing Unit) — termin za on-device akceleratore u mobitelima, laptopima i edge uređajima; Apple Neural Engine, Qualcomm Hexagon NPU, Intel/AMD NPU-ovi u Copilot+ PC-ovima
- AWS Trainium / Inferentia — Amazonovi čipovi za trening i inferenciju u AWS-u, agresivno cjenovno pozicionirani protiv NVIDIA-e
- Specijalizirani LLM čipovi — Groq LPU, Cerebras WSE, SambaNova RDU, sve dizajnirani za ekstremnu propusnost na inferenciji
Tržišna logika je jasna: GPU-ovi su skupi, oskudni i (sve do nedavno) skoro 100% NVIDIA. Hyperscaleri (Google, Amazon, Meta, Microsoft) razvijaju vlastite akceleratore da smanje ovisnost i marže koje plaćaju NVIDIA-i. Na strani uređaja, NPU u svakom modernom telefonu i laptopu omogućuje pokretanje malih velikih jezičnih modela lokalno, bez slanja podataka u cloud.
Granica je softver: CUDA i NVIDIA-in ekosustav i dalje su zlatni standard, dok alternativni stackovi sazrijevaju.