基础设施
上下文窗口
LLM 在一次交互中能够同时考虑的最大 token 数——包括系统提示词、上传文档、完整对话历史以及模型生成的回答;当今规模从 8K 一直到 200 万 token 不等。
上下文窗口(context window) 是大型语言模型在一次交互中能够考虑的最大 token 数。它包括系统提示词、所有发送的文档、对话历史以及模型生成的输出。一旦窗口被填满,就必须丢弃、汇总或转移部分内容到外部存储中。
大小以 token 而非字符来衡量——一个 token 大约相当于 4 个英文字符或约 0.75 个英文单词。
数年间的演进:
- 2020:GPT-3 拥有 2K token
- 2023:GPT-4 32K,Claude 2 100K
- 2024–2025:Claude 3.5/3.7 200K,GPT-4o 128K,Gemini 1.5/2.0 1M–2M
- 2026:Claude 1M 上下文(预览),生产系统常规使用 100K+
大窗口支持「context stuffing」——将整个代码库、长 PDF 或数小时长的转录内容直接塞入。然而,它并不能解决所有问题:「lost in the middle」研究表明,模型在长文档中段会注意力分散;并且在传统 Transformer 架构中,成本和延迟随长度呈二次增长(尽管 Flash Attention 和稀疏注意力等现代优化有所缓解)。
实践中,RAG 与精心构造的提示词通常比一味往窗口里塞内容效果更好。