AI 가속기 (NPU/TPU)

**AI 가속기 (AI accelerator)**는 신경망용으로 전용 설계된 칩입니다 — 그래픽에서 진화한 GPU와 달리, 가속기는 처음부터 행렬 곱셈, 저정밀도 숫자(FP8, INT8, INT4), 텐서 연산, 특정 메모리 패턴에 최적화되어 있습니다.

주요 카테고리:

TPU (Tensor Processing Unit) — Google의 칩, 내부 학습(Gemini)과 Google Cloud를 통해 사용; 현 세대는 TPU v5p와 TPU v6e (Trillium)
NPU (Neural Processing Unit) — 모바일, 노트북, 엣지 기기 내 온디바이스 가속기를 가리키는 용어; Apple Neural Engine, Qualcomm Hexagon NPU, Copilot+ PC의 Intel/AMD NPU
AWS Trainium / Inferentia — AWS의 학습과 추론을 위한 Amazon의 칩, NVIDIA에 대해 공격적으로 가격이 책정됨
전용 LLM 칩 — Groq LPU, Cerebras WSE, SambaNova RDU; 모두 추론에서 극단적인 처리량을 위해 설계됨

시장 논리는 명확합니다. GPU는 비싸고, 부족하며, (최근까지) 거의 100% NVIDIA였습니다. 하이퍼스케일러(Google, Amazon, Meta, Microsoft)는 의존성과 NVIDIA에 지불하는 마진을 줄이기 위해 자체 가속기를 개발하고 있습니다. 기기 측면에서는, 모든 현대 폰과 노트북에 있는 NPU가 데이터를 클라우드로 보내지 않고 작은 대규모 언어 모델 (LLM)을 로컬로 실행할 수 있게 합니다.

경계는 소프트웨어입니다. CUDA와 NVIDIA의 생태계는 여전히 황금 표준이며, 대안 스택은 성숙해지고 있습니다.

출처

관련 항목