Hardver

AI akcelerator (NPU/TPU)

Specijalizirani čip za AI radne opterećenja — NPU u mobitelima, TPU kod Googlea, AWS Trainium — često brži i učinkovitiji od GPU-a po dolaru.

AI akcelerator je čip namjenski projektiran za neuronske mreže — za razliku od GPU-a koji su evoluirali iz grafike, akceleratori su od početka optimizirani za matrično množenje, niskoprecizne brojeve (FP8, INT8, INT4), tensor operacije i specifične memorijske obrasce.

Glavne kategorije:

  • TPU (Tensor Processing Unit) — Googleov čip, korišten za interno treniranje (Gemini) i kroz Google Cloud; aktualna generacija je TPU v5p i TPU v6e (Trillium)
  • NPU (Neural Processing Unit) — termin za on-device akceleratore u mobitelima, laptopima i edge uređajima; Apple Neural Engine, Qualcomm Hexagon NPU, Intel/AMD NPU-ovi u Copilot+ PC-ovima
  • AWS Trainium / Inferentia — Amazonovi čipovi za trening i inferenciju u AWS-u, agresivno cjenovno pozicionirani protiv NVIDIA-e
  • Specijalizirani LLM čipovi — Groq LPU, Cerebras WSE, SambaNova RDU, sve dizajnirani za ekstremnu propusnost na inferenciji

Tržišna logika je jasna: GPU-ovi su skupi, oskudni i (sve do nedavno) skoro 100% NVIDIA. Hyperscaleri (Google, Amazon, Meta, Microsoft) razvijaju vlastite akceleratore da smanje ovisnost i marže koje plaćaju NVIDIA-i. Na strani uređaja, NPU u svakom modernom telefonu i laptopu omogućuje pokretanje malih velikih jezičnih modela lokalno, bez slanja podataka u cloud.

Granica je softver: CUDA i NVIDIA-in ekosustav i dalje su zlatni standard, dok alternativni stackovi sazrijevaju.

Izvori

Vidi također