基础设施

上下文窗口

LLM 在一次交互中能够同时考虑的最大 token 数——包括系统提示词、上传文档、完整对话历史以及模型生成的回答;当今规模从 8K 一直到 200 万 token 不等。

上下文窗口(context window大型语言模型在一次交互中能够考虑的最大 token 数。它包括系统提示词、所有发送的文档、对话历史以及模型生成的输出。一旦窗口被填满,就必须丢弃、汇总或转移部分内容到外部存储中。

大小以 token 而非字符来衡量——一个 token 大约相当于 4 个英文字符或约 0.75 个英文单词。

数年间的演进:

  • 2020:GPT-3 拥有 2K token
  • 2023:GPT-4 32K,Claude 2 100K
  • 2024–2025:Claude 3.5/3.7 200K,GPT-4o 128K,Gemini 1.5/2.0 1M–2M
  • 2026:Claude 1M 上下文(预览),生产系统常规使用 100K+

大窗口支持「context stuffing」——将整个代码库、长 PDF 或数小时长的转录内容直接塞入。然而,它并不能解决所有问题:「lost in the middle」研究表明,模型在长文档中段会注意力分散;并且在传统 Transformer 架构中,成本和延迟随长度呈二次增长(尽管 Flash Attention 和稀疏注意力等现代优化有所缓解)。

实践中,RAG 与精心构造的提示词通常比一味往窗口里塞内容效果更好。

来源

另见