Modelle
Generative Pretrained Transformer (GPT)
Decoder-Only-Transformer-Sprachmodelle, vortrainiert auf riesigen Textmengen und für Anweisungen feinabgestimmt — die Architektur hinter ChatGPT und Co.
Der Generative Pretrained Transformer (GPT) ist eine Klasse von großen Sprachmodellen, die einen Decoder-Only-Transformer verwendet, der in zwei Phasen trainiert wird. Zunächst wird das Modell auf einem riesigen Korpus von Internet-Text mit einem einfachen Ziel vortrainiert — den nächsten Token vorherzusagen. Anschließend wird es durch Fine-Tuning, überwachte Demonstrationen und Reinforcement Learning aus menschlichem Feedback an das Befolgen von Anweisungen angepasst.
OpenAI stellte 2018 den ursprünglichen GPT vor und skalierte ihn über GPT-2 (2019), GPT-3 (2020), GPT-3.5 — das Ende 2022 das erste ChatGPT antrieb — bis hin zu den Generationen GPT-4 / GPT-4o / GPT-5. Jeder Schritt erhöhte Parameteranzahl, Datenmenge und Kontextgröße, während Methoden Reasoning, Multimodalität und Werkzeugnutzung verbesserten.
Das GPT-Rezept ist zum dominierenden Branchenparadigma geworden. Claude, Gemini, Llama, Mistral, DeepSeek und Qwen sind allesamt Decoder-Only-Transformer, die mit sehr ähnlichen Zielen trainiert werden, auch wenn sich Gewichte und Engineering-Lösungen unterscheiden.
Im Alltagsgebrauch bezeichnet „GPT” mal eng OpenAI-Modelle und mal weit gefasst die gesamte Familie von Decoder-LLMs — der Begriff ist überladen, aber zweifellos zentral für die moderne KI.