インフラ
コンテキストウィンドウ(context window)
LLMが一度のインタラクションで考慮できるトークンの最大数で、プロンプト、ドキュメント、応答すべてを含み、現在は8Kから200万トークンまで及びます。
**コンテキストウィンドウ(context window)**は、大規模言語モデルが単一のインタラクションで考慮できるトークンの最大数です。システムプロンプト、送信するすべての文書、会話履歴、モデルが生成する出力を含みます。ウィンドウが満杯になると、何かを破棄、要約、または外部ストアに移動する必要があります。
サイズはトークンで測定され、文字ではありません — 1つのトークンは英語テキストの約4文字、つまり約0.75単語に相当します。
数年間の進化:
- 2020年:GPT-3は2Kトークン
- 2023年:GPT-4は32K、Claude 2は100K
- 2024〜2025年:Claude 3.5/3.7は200K、GPT-4oは128K、Gemini 1.5/2.0は100万〜200万
- 2026年:Claudeの100万コンテキスト(プレビュー)、本番システムは日常的に100K以上を使用
大きなウィンドウは「context stuffing」を可能にします — コードベース全体、長いPDF、何時間にもわたるトランスクリプトを投入すること。しかし、すべてを解決するわけではありません。「lost in the middle」研究は、モデルが長い文書の中央で注意を失うことを示しており、コストとレイテンシは古典的なトランスフォーマーアーキテクチャでは長さに対して二次的に増加します(FlashAttentionやSparse Attentionのような現代の最適化はそれを軽減しますが)。
実際には、RAGと注意深いプロンプト構造化が、ウィンドウを素朴に埋めるよりも良い結果をもたらすことがしばしばあります。