Transformer

Der Transformer ist die Deep-Learning-Architektur, die 2017 im Paper Attention Is All You Need von Vaswani et al. bei Google vorgestellt wurde. Er ersetzte frühere rekurrente neuronale Netze (RNNs, LSTMs) bei Sprachaufgaben und ist heute das Rückgrat nahezu jedes führenden Großen Sprachmodells — GPT, Claude, Gemini, Llama, Mistral, DeepSeek sind allesamt Transformer.

Die zentrale Innovation des Transformers ist der Self-Attention-Mechanismus, der es jeder Position in einer Sequenz ermöglicht, parallel auf jede andere Position zu „achten”. Dadurch entfällt der sequenzielle Engpass von RNNs, das Training auf deutlich längeren Kontexten wird möglich, und die Architektur skaliert effizient auf modernen GPUs und TPUs.

Eine Transformer-Schicht kombiniert: Multi-Head Self-Attention (verschiedene „Sichtweisen” auf Beziehungen in den Daten), ein Feed-Forward-Netzwerk, Layer Normalization und Residualverbindungen. Modelle stapeln 24 bis über 100 solcher Schichten. Varianten umfassen: Encoder-Only (BERT), Decoder-Only (GPT-Familie) und Encoder-Decoder (T5, ursprünglicher Transformer).

Über die Sprache hinaus treiben Transformer heute Computer Vision (ViT), Audio (Whisper), Protein-Faltung (AlphaFold 2) und multimodale Modelle an. Die Architektur skaliert bemerkenswert gut: Die Verdopplung von Parametern und Trainingsdaten verbessert die Fähigkeiten kontinuierlich — das Prinzip hinter den heutigen Frontier-Modellen.

Quellen

Siehe auch