Modelle
Mixture of Experts (MoE)
Netzwerkarchitektur, die je Eingabe nur wenige Experten aktiviert und dadurch die Kapazität sehr großer Modelle zu einem Bruchteil der Inferenzkosten liefert.
Ein Mixture of Experts (MoE)-Modell enthält eine große Anzahl von „Experten”-Teilnetzwerken sowie einen erlernten Router, der auswählt, welche Experten jeden Token verarbeiten. Für eine gegebene Eingabe werden nur wenige Experten aktiviert (typischerweise 2 von 8, 8 von 64 o. ä.); die übrigen bleiben inaktiv. Das Modell verfügt über die Parameteranzahl und Kapazität eines riesigen dichten Modells, verursacht dabei aber nur die Rechenkosten eines wesentlich kleineren.
Warum das wichtig ist: Das Skalieren dichter Transformer stößt an eine Grenze — größere Modelle werden für den Betrieb prohibitiv teuer. MoE entkoppelt die Gesamtparameterzahl von den aktiven Parametern pro Token und ermöglicht so Kapazitätswachstum ohne proportionale Steigerung der Inferenzkosten.
Bedeutende MoE-Modelle:
- Mixtral 8x7B und 8x22B (Mistral AI, Open-Weight)
- DeepSeek-V3 / DeepSeek-R1 (671 Mrd. gesamt, ~37 Mrd. aktiv)
- Llama 4-Familie (Meta, MoE ab 2025)
- GPT-4 / GPT-5 — vermutet MoE (nicht offiziell bestätigt)
- Qwen MoE-Serie (Alibaba)
Trade-offs: MoE-Training ist komplexer (Load Balancing, Expert Collapse), Inferenz-Server benötigen mehr Spitzenspeicher (alle Experten müssen passen), und nicht jeder Workload profitiert gleichermaßen. Bis 2026 hat sich MoE zur Standard-Architektur für führende Open-Weight- und Closed-Frontier-Modelle entwickelt.