인프라

추론 (inference, 모델 실행)

이미 학습된 모델이 새로운 입력에 대해 출력을 생성하는 단계로, GPU/TPU 자원을 소모하며 AI 서비스의 비용, 지연 시간, 처리량을 결정합니다.

**추론 (inference)**은 모델 라이프사이클의 단계로, 이미 학습된 모델이 새로운 입력을 받아 출력 — 예측, 분류, 텍스트 — 을 생성합니다. 이는 학습과 대조됩니다. 학습은 한 번(또는 몇 번의 반복) 일어나며 수 주 또는 수 개월에 걸쳐 훨씬 큰 하드웨어를 사용합니다.

대규모 언어 모델 (LLM)에 있어 추론은 토큰 단위로 생성하는 것을 의미하며, 각 새로운 토큰은 신경망의 모든 층을 통과해야 합니다. 주요 메트릭:

  • 첫 토큰 지연 시간 (TTFT) — 사용자가 응답의 첫 글자를 보기까지의 속도
  • 처리량 (토큰/초) — 서버가 동시에 얼마나 많은 사용자와 요청을 처리할 수 있는가
  • 백만 토큰당 비용 — API 제공자 비즈니스 모델의 주요 동인

추론은 모델의 수명 동안 총 소유 비용을 지배합니다 — 학습이 한 번에 수백만 달러가 든다면, 프로덕션의 추론은 성공적인 제품에 대해 매월 같은 금액을 소모합니다. 그래서 추론 최적화가 활발한 분야입니다. 양자화(FP8, INT4), speculative decoding, prefix caching, batching, KV-캐시 재사용.

하드웨어 스택은 다양합니다. NVIDIA H100과 B200 GPU가 클라우드에서 지배적이지만, Google TPU, AWS Trainium/Inferentia, Groq LPU 같은 AI 가속기는 더 좋은 가격 대비 성능 비율로 추진력을 얻고 있습니다. 로컬 추론(Apple Silicon, 노트북의 NPU, Ollama)은 경제성을 더욱 변화시키고 있습니다.

출처

관련 항목