推理 (Inference)

推理（inference） 是模型生命周期中的一个阶段：已训练完毕的模型接收新的输入并生成输出——预测、分类或文本。与之相对的是训练，它只发生一次（或经过若干轮迭代），并在数周或数月内使用规模大得多的硬件。

对于大型语言模型而言，推理意味着逐 token 地生成，每生成一个新 token 都需要经过网络的所有层。关键指标：

首 token 延迟（TTFT） — 用户看到响应第一个字符的速度
吞吐量（tokens/s） — 一台服务器能同时服务多少用户和请求
每百万 token 成本 — API 提供商商业模式的主要驱动因素

在模型整个生命周期中，推理主导了总体拥有成本——如果训练一次花费数百万美元，那么一个成功产品在生产环境中的推理每月成本也大致相当。因此推理优化是一个活跃的研究领域：量化（FP8、INT4）、推测解码（speculative decoding）、前缀缓存、批处理、KV-cache 复用。

硬件栈丰富多样：NVIDIA H100 和 B200 GPU 在云端占主导地位，但 AI 加速器如 Google TPU、AWS Trainium/Inferentia 和 Groq LPU 凭借更优的性价比正在加速跟进。本地推理（Apple Silicon、笔记本 NPU、Ollama）也在持续改变成本格局。

来源

另见