Grundlagen

Tokenisierung

Zerlegung von Text in kleinere Einheiten (Tokens) — Wörter, Subwörter oder Zeichen —, die ein Sprachmodell verarbeiten und in Zahlen umwandeln kann.

Tokenisierung ist der erste Schritt der Textverarbeitung für ein großes Sprachmodell — der Prozess der Zerlegung von Rohtext in kleinere Einheiten, sogenannte Tokens. Ein Token kann ein ganzes Wort, ein Subwort (Präfix oder Suffix), ein einzelnes Zeichen oder sogar einige Bytes sein. Jedes Token erhält dann eine eindeutige Ganzzahl-ID aus dem festen Vokabular des Modells (üblicherweise 30.000 bis 200.000 Einträge).

Moderne LLMs verwenden fast ausnahmslos eine Variante der Subword-Tokenisierung:

  • Byte-Pair Encoding (BPE) — verwendet von GPT-Modellen, beginnt mit einzelnen Bytes und führt die häufigsten Paare zusammen
  • WordPiece — BERT-Familie, ähnlich BPE, aber mit anderem Mergekriterium
  • SentencePiece / Unigram — Llama, T5, viele mehrsprachige Modelle, arbeitet direkt auf Rohtext ohne vorherige Zerlegung an Leerzeichen
  • Tiktoken — OpenAI-Implementierung von BPE, eingesetzt für GPT-3.5/4/5

Die Tokenisierung wirkt sich direkt auf Kosten und Kontextgröße aus: APIs werden pro Token abgerechnet, und das Kontextfenster wird in Tokens, nicht in Zeichen gemessen. Englischer Text verbraucht typischerweise ~0,75 Tokens pro Wort; Kroatisch, Deutsch oder Chinesisch können für denselben Inhalt 1,5–3× mehr Tokens benötigen — daher ist eine kroatische Anfrage nicht nur sprachlich anspruchsvoller, sondern auch teurer.

Nach der Tokenisierung wird jede ID in einen Embedding-Vektor abgebildet und gelangt in die Transformer-Schichten des Modells.

Quellen

Siehe auch