GPU (그래픽 처리 장치)

**GPU (Graphics Processing Unit, 그래픽 처리 장치)**는 원래 3D 그래픽 렌더링용으로 설계되었지만, 신경망 학습에 매우 적합한 것으로 판명되었습니다. 이유: 딥러닝은 거대한 병렬 행렬 연산으로 귀결되며, GPU는 바로 그것을 효율적으로 수행하는 수천 개의 작은 코어를 가지고 있습니다 — 몇 개의 강력한 순차 코어를 가진 CPU와 대조됩니다.

AI에 중요한 계층:

Tensor cores / Matrix cores — FP16/FP8/INT8 행렬 곱셈을 위한 전용 유닛 (NVIDIA Volta+, AMD CDNA)
HBM 메모리 — 표준 GDDR보다 훨씬 높은 대역폭의 High Bandwidth Memory; H100은 80 GB의 HBM3, B200은 192 GB의 HBM3e를 가집니다
인터커넥트 — NVLink와 NVSwitch를 통해 학습을 위해 8-72개의 GPU를 단일 논리 시스템으로 연결할 수 있습니다
CUDA 생태계 — NVIDIA의 소프트웨어 해자; 대안(ROCm, OneAPI, Triton)은 이제야 추진력을 얻고 있습니다

오늘날의 AI 경제는 GPU와 깊이 연결되어 있습니다. NVIDIA는 2024/2025년 바로 H100/B200 출하 덕분에 세계에서 가장 가치 있는 회사가 되었습니다. 프론티어 모델 학습용 단일 GPU 클러스터의 가격은 수억 달러로 측정됩니다.

TPU(Google)와 Trainium(AWS) 같은 AI 가속기는 특히 대규모 언어 모델 (LLM)의 추론에서 독점을 흔들려고 하지만, 프론티어 모델 학습에서는 2026년에도 GPU가 여전히 지배적입니다.

출처

관련 항목