인프라
컨텍스트 윈도우 (context window)
LLM이 한 번에 고려할 수 있는 토큰의 최대 수로, 프롬프트, 문서, 응답 모두를 포함하며 현재는 8K부터 200만 토큰까지 다양한 범위에 걸쳐 있습니다.
**컨텍스트 윈도우 (context window)**는 대규모 언어 모델 (LLM)이 단일 인터랙션에서 고려할 수 있는 토큰의 최대 수입니다. 시스템 프롬프트, 보내는 모든 문서, 대화 히스토리, 모델이 생성하는 출력을 포함합니다. 윈도우가 가득 차면 무언가를 버리거나, 요약하거나, 외부 저장소로 옮겨야 합니다.
크기는 토큰으로 측정되며 문자가 아닙니다 — 하나의 토큰은 영어 텍스트의 약 4개 문자, 즉 약 0.75 단어에 해당합니다.
수년 간의 진화:
- 2020: GPT-3는 2K 토큰
- 2023: GPT-4 32K, Claude 2 100K
- 2024-2025: Claude 3.5/3.7 200K, GPT-4o 128K, Gemini 1.5/2.0 100만~200만
- 2026: Claude 100만 컨텍스트(프리뷰), 프로덕션 시스템은 일상적으로 100K 이상 사용
큰 윈도우는 “context stuffing”을 가능하게 합니다 — 전체 코드베이스, 긴 PDF, 수 시간 분량의 트랜스크립트를 투입하는 것. 그러나 모든 것을 해결하지는 않습니다. “lost in the middle” 연구는 모델이 긴 문서의 중간에서 주의를 잃는다는 것을 보여주며, 비용과 지연 시간은 고전적인 트랜스포머 아키텍처에서 길이에 대해 이차적으로 증가합니다(FlashAttention과 Sparse Attention 같은 현대 최적화가 이를 완화하지만).
실제로는, RAG와 신중한 프롬프트 구조화가 윈도우를 단순히 채우는 것보다 더 좋은 결과를 가져오는 경우가 많습니다.