Mixture of Experts (MoE)

Ein Mixture of Experts (MoE)-Modell enthält eine große Anzahl von „Experten”-Teilnetzwerken sowie einen erlernten Router, der auswählt, welche Experten jeden Token verarbeiten. Für eine gegebene Eingabe werden nur wenige Experten aktiviert (typischerweise 2 von 8, 8 von 64 o. ä.); die übrigen bleiben inaktiv. Das Modell verfügt über die Parameteranzahl und Kapazität eines riesigen dichten Modells, verursacht dabei aber nur die Rechenkosten eines wesentlich kleineren.

Warum das wichtig ist: Das Skalieren dichter Transformer stößt an eine Grenze — größere Modelle werden für den Betrieb prohibitiv teuer. MoE entkoppelt die Gesamtparameterzahl von den aktiven Parametern pro Token und ermöglicht so Kapazitätswachstum ohne proportionale Steigerung der Inferenzkosten.

Bedeutende MoE-Modelle:

Mixtral 8x7B und 8x22B (Mistral AI, Open-Weight)
DeepSeek-V3 / DeepSeek-R1 (671 Mrd. gesamt, ~37 Mrd. aktiv)
Llama 4-Familie (Meta, MoE ab 2025)
GPT-4 / GPT-5 — vermutet MoE (nicht offiziell bestätigt)
Qwen MoE-Serie (Alibaba)

Trade-offs: MoE-Training ist komplexer (Load Balancing, Expert Collapse), Inferenz-Server benötigen mehr Spitzenspeicher (alle Experten müssen passen), und nicht jeder Workload profitiert gleichermaßen. Bis 2026 hat sich MoE zur Standard-Architektur für führende Open-Weight- und Closed-Frontier-Modelle entwickelt.

Quellen

Siehe auch