インフラ
推論(inference、モデル実行)
学習済みモデルが新しい入力に対して出力を生成する段階で、GPU/TPUのリソースを消費し、AIサービスのコスト、レイテンシ、スループットを決定します。
**推論(inference)**は、モデルのライフサイクルの段階で、すでに学習されたモデルが新しい入力を受け取り、出力 — 予測、分類、テキスト — を生成します。これは学習とは対照的です。学習は一度(または数回の反復)行われ、数週間または数ヶ月にわたってはるかに大きなハードウェアを使用します。
大規模言語モデルにとって、推論はトークンごとに生成することを意味し、各新しいトークンはネットワークのすべての層を通過する必要があります。主要な指標:
- First Token Latency(TTFT) — ユーザーが応答の最初の文字を見るまでの速度
- Throughput(トークン/秒) — サーバーが同時にどれだけのユーザーとリクエストを処理できるか
- 100万トークンあたりのコスト — APIプロバイダーのビジネスモデルの主要な要因
推論は、モデルの寿命にわたる総所有コストを支配します — 学習が一度だけ数百万ドルかかるとしたら、本番での推論は成功する製品にとって毎月同じ額を費やします。だからこそ推論最適化が活発な分野なのです。量子化(FP8、INT4)、speculative decoding、prefix caching、batching、KVキャッシュ再利用。
ハードウェアスタックは多様です。NVIDIA H100とB200のGPUはクラウドで支配的ですが、Google TPU、AWS Trainium/Inferentia、Groq LPUのようなAIアクセラレータは、より良い価格性能比で勢いを増しています。ローカル推論(Apple Silicon、ラップトップのNPU、Ollama)はさらに経済性を変えています。