Großes Sprachmodell (LLM)

Ein Großes Sprachmodell (LLM, Large Language Model) ist ein tiefes neuronales Netzwerk — fast immer auf der Transformer-Architektur basierend — das auf Hunderten von Milliarden bis Billionen von Wörtern aus Büchern, Artikeln, Webseiten und Code trainiert wurde. Nach dem Training enkodiert das Modell statistische Muster der menschlichen Sprache und kann kohärenten Text als Antwort auf eine Anfrage generieren, Fragen beantworten, Dokumente zusammenfassen, übersetzen und Code schreiben.

LLMs „verstehen” nicht im menschlichen Sinne. Sie sagen den wahrscheinlichsten nächsten Token anhand des vorangegangenen Kontexts voraus — tausendfach wiederholt, um Sätze und Absätze zu bilden. Die Illusion des Denkens entsteht aus dem Ausmaß und der Vielfalt der während des Trainings absorbierten Muster.

Der Begriff gewann 2022 mit der Veröffentlichung von ChatGPT Mainstream-Popularität. Heute bezeichnet „LLM” Modelle mit einigen Milliarden bis über einer Billion Parametern, die über API (GPT-5, Claude, Gemini), als offene Gewichte (Llama, Mistral, DeepSeek) oder über lokale Laufzeitumgebungen (Ollama, llama.cpp) verfügbar sind.

LLMs bilden die Grundlage für nahezu jedes KI-Produkt, über das wir berichten — Agenten, Chat-Assistenten, RAG-Systeme und Reasoning-Modelle bauen alle auf einem LLM auf.

Quellen

Siehe auch