TPU (텐서 처리 장치)

TPU(Tensor Processing Unit, 텐서 처리 장치)는 머신러닝 작업을 가속하기 위해 구글이 전용으로 개발한 주문형 반도체(ASIC)다. 범용 GPU와 달리 TPU는 신경망 연산의 핵심인 대규모 행렬 연산만을 위해 설계되었다.

이 아키텍처는 처리 요소들이 배열된 시스톨릭 어레이(systolic array)를 중심으로 하며, 낮은 정밀도(예: 8비트, 최신 제품에서는 FP4／BF16)로 행렬 곱셈을 수행해 높은 처리량과 뛰어난 전력 효율을 달성한다. 구글은 2015년부터 내부적으로 TPU를 사용했고 2018년에는 구글 클라우드를 통해 외부 고객에게도 개방했다. 칩은 브로드컴과 공동 설계되며 TSMC가 제조한다.

TPU는 구글 AI 인프라의 핵심으로, 제미나이 계열 등 모델의 학습과 추론을 모두 뒷받침한다. 트릴리움(v6), 아이언우드(v7), 그리고 2026년에 예고된 학습용·추론용 분리 제품 등 최신 세대는 딥러닝 분야에서 엔비디아 GPU의 우위에 맞서는 구글의 주력으로 TPU를 자리매김하고 있다.

출처

관련 항목