基础设施

推理 (Inference)

已训练好的模型针对新输入生成输出(如预测、分类或文本)的阶段;消耗 GPU/TPU 资源,决定 AI 服务的成本、延迟和吞吐量等核心商业指标,主导总体拥有成本。

推理(inference) 是模型生命周期中的一个阶段:已训练完毕的模型接收新的输入并生成输出——预测、分类或文本。与之相对的是 训练,它只发生一次(或经过若干轮迭代),并在数周或数月内使用规模大得多的硬件。

对于大型语言模型而言,推理意味着逐 token 地生成,每生成一个新 token 都需要经过网络的所有层。关键指标:

  • 首 token 延迟(TTFT) — 用户看到响应第一个字符的速度
  • 吞吐量(tokens/s) — 一台服务器能同时服务多少用户和请求
  • 每百万 token 成本 — API 提供商商业模式的主要驱动因素

在模型整个生命周期中,推理主导了总体拥有成本——如果训练一次花费数百万美元,那么一个成功产品在生产环境中的推理每月成本也大致相当。因此推理优化是一个活跃的研究领域:量化(FP8、INT4)、推测解码(speculative decoding)、前缀缓存、批处理、KV-cache 复用。

硬件栈丰富多样:NVIDIA H100 和 B200 GPU 在云端占主导地位,但 AI 加速器如 Google TPU、AWS Trainium/Inferentia 和 Groq LPU 凭借更优的性价比正在加速跟进。本地推理(Apple Silicon、笔记本 NPU、Ollama)也在持续改变成本格局。

来源

另见