Infrastruktur

Kontextfenster

Maximale Anzahl Tokens, die ein LLM gleichzeitig berücksichtigen kann — Prompt, Dokumente und Antwort; reicht heute von 8K bis 2 Millionen Tokens.

Das Kontextfenster (context window) ist die maximale Anzahl von Tokens, die ein großes Sprachmodell in einer einzigen Interaktion berücksichtigen kann. Es umfasst den System-Prompt, alle gesendeten Dokumente, den Gesprächsverlauf und die vom Modell generierte Ausgabe. Sobald das Fenster voll ist, muss etwas verworfen, zusammengefasst oder in einen externen Speicher ausgelagert werden.

Die Größe wird in Tokens gemessen, nicht in Zeichen — ein Token entspricht etwa 4 Zeichen englischen Textes oder rund 0,75 Wörtern.

Entwicklung über wenige Jahre:

  • 2020: GPT-3 hatte 2K Tokens
  • 2023: GPT-4 32K, Claude 2 100K
  • 2024–2025: Claude 3.5/3.7 200K, GPT-4o 128K, Gemini 1.5/2.0 1M–2M
  • 2026: Claude 1M Kontext (Preview), Produktionssysteme nutzen routinemäßig 100K+

Große Fenster ermöglichen „Context Stuffing” — das Einfügen ganzer Codebasen, langer PDFs oder mehrstündiger Transkripte. Sie lösen jedoch nicht alle Probleme: „Lost in the Middle”-Studien zeigen, dass Modelle in der Mitte langer Dokumente an Aufmerksamkeit verlieren, und Kosten und Latenz steigen quadratisch mit der Länge in der klassischen Transformer-Architektur (auch wenn moderne Optimierungen wie Flash Attention und Sparse Attention dies abmildern).

In der Praxis liefern RAG und sorgfältige Prompt-Strukturierung oft bessere Ergebnisse als naives Auffüllen des Fensters.

Quellen

Siehe auch