推論（inference、モデル実行）

**推論（inference）**は、モデルのライフサイクルの段階で、すでに学習されたモデルが新しい入力を受け取り、出力 — 予測、分類、テキスト — を生成します。これは学習とは対照的です。学習は一度（または数回の反復）行われ、数週間または数ヶ月にわたってはるかに大きなハードウェアを使用します。

大規模言語モデルにとって、推論はトークンごとに生成することを意味し、各新しいトークンはネットワークのすべての層を通過する必要があります。主要な指標：

First Token Latency（TTFT） — ユーザーが応答の最初の文字を見るまでの速度
Throughput（トークン/秒） — サーバーが同時にどれだけのユーザーとリクエストを処理できるか
100万トークンあたりのコスト — APIプロバイダーのビジネスモデルの主要な要因

推論は、モデルの寿命にわたる総所有コストを支配します — 学習が一度だけ数百万ドルかかるとしたら、本番での推論は成功する製品にとって毎月同じ額を費やします。だからこそ推論最適化が活発な分野なのです。量子化（FP8、INT4）、speculative decoding、prefix caching、batching、KVキャッシュ再利用。

ハードウェアスタックは多様です。NVIDIA H100とB200のGPUはクラウドで支配的ですが、Google TPU、AWS Trainium/Inferentia、Groq LPUのようなAIアクセラレータは、より良い価格性能比で勢いを増しています。ローカル推論（Apple Silicon、ラップトップのNPU、Ollama）はさらに経済性を変えています。

出典

関連項目