上下文窗口

上下文窗口（context window） 是大型语言模型在一次交互中能够考虑的最大 token 数。它包括系统提示词、所有发送的文档、对话历史以及模型生成的输出。一旦窗口被填满，就必须丢弃、汇总或转移部分内容到外部存储中。

大小以 token 而非字符来衡量——一个 token 大约相当于 4 个英文字符或约 0.75 个英文单词。

数年间的演进：

2020：GPT-3 拥有 2K token
2023：GPT-4 32K，Claude 2 100K
2024–2025：Claude 3.5/3.7 200K，GPT-4o 128K，Gemini 1.5/2.0 1M–2M
2026：Claude 1M 上下文（预览），生产系统常规使用 100K+

大窗口支持「context stuffing」——将整个代码库、长 PDF 或数小时长的转录内容直接塞入。然而，它并不能解决所有问题：「lost in the middle」研究表明，模型在长文档中段会注意力分散；并且在传统 Transformer 架构中，成本和延迟随长度呈二次增长（尽管 Flash Attention 和稀疏注意力等现代优化有所缓解）。

实践中，RAG 与精心构造的提示词通常比一味往窗口里塞内容效果更好。

来源

另见