Grundlagen
Aufmerksamkeitsmechanismus (attention)
Eine Technik neuronaler Netze, die es einem Modell erlaubt, die Wichtigkeit jedes Eingabetokens relativ zu anderen zu gewichten — der Kern moderner Transformer.
Der Aufmerksamkeitsmechanismus (attention) ist eine Technik in neuronalen Netzen, die es einem Modell erlaubt, für jede Position einer Eingabesequenz zu entscheiden, wie wichtig jede andere Position bei der Erzeugung der Ausgabe ist. Statt Token streng der Reihe nach zu verarbeiten, weist die Aufmerksamkeit jedem Positionspaar ein Gewicht zu und aggregiert die Information entsprechend.
Die dominierende Variante in modernen KI-Systemen ist Self-Attention, bei der Query-, Key- und Value-Vektoren alle aus derselben Sequenz abgeleitet werden. Jeder Token berechnet seine Ähnlichkeit zu jedem anderen, diese Werte werden durch eine Softmax-Funktion in Gewichte umgewandelt, und die Ausgabe ist eine gewichtete Summe der Value-Vektoren. Multi-Head Attention führt dieselbe Operation parallel in mehreren gelernten Unterräumen aus.
Aufmerksamkeit wurde 2014 für die maschinelle Übersetzung eingeführt (Bahdanau et al.) und 2017 mit dem Paper Attention Is All You Need, das die Transformer-Architektur definierte, zum zentralen Baustein. Der Verzicht auf Rekurrenz zugunsten reiner Aufmerksamkeit ermöglichte massive Parallelisierung auf GPUs und machte heutige große Sprachmodelle erst praktikabel.
Varianten wie Flash Attention, Sliding-Window Attention und Grouped-Query Attention reduzieren Speicher- und Rechenaufwand und ermöglichten so das Anwachsen des Kontextfensters von einigen Tausend auf Millionen Token.