Grundlagen
Embedding (Vektorrepräsentation)
Eine Vektorrepräsentation eines Wortes, Satzes oder Dokuments in einem hochdimensionalen Raum, in dem semantisch ähnliche Bedeutungen nahe beieinander liegen.
Ein Embedding ist ein dichter Vektor von Gleitkommazahlen (meist 256 bis 4096 Dimensionen), der die Bedeutung eines Wortes, Satzes, Absatzes, Bildes oder einer beliebigen anderen Eingabe repräsentiert. Die zentrale Eigenschaft: Elemente mit ähnlicher Bedeutung liegen in diesem Raum nahe beieinander, während unverwandte Elemente weit voneinander entfernt sind. Der Abstand wird üblicherweise durch Kosinusähnlichkeit oder euklidische Distanz gemessen.
Embeddings werden von speziell trainierten Modellen erzeugt — etwa OpenAI text-embedding-3-large, Cohere Embed v3 oder offene Modelle wie bge-m3 und nomic-embed. Viele große Sprachmodelle verwenden Embeddings intern als erste Schicht nach der Tokenisierung — jedes Token wird vor dem Eintritt in die Transformer-Schichten auf seinen gelernten Vektor abgebildet.
Hauptanwendungen:
- Semantische Suche: Statt nach einem exakten Wort zu suchen, findet das System Dokumente mit ähnlicher Bedeutung
- RAG-Systeme: Abruf relevanter Dokumente aus einer Vektordatenbank vor dem Generieren der Antwort
- Klassifikation und Clustering: Gruppierung ähnlicher Inhalte ohne manuelles Labeln
- Empfehlungen: „Nutzer, die X gesehen haben, möchten vielleicht Y”
Embeddings sind die Grundlage aller modernen semantischen Suchsysteme und RAG-Architekturen — ohne sie könnten KI-Assistenten nicht effizient auf eigene Dokumentation oder auf Wissen außerhalb des Gesprächskontexts zugreifen.