🟡 📦 Open Source Mittwoch, 29. April 2026 · 2 Min. Lesezeit ·

Marco-MoE: Open-Source-mehrsprachiges MoE mit 5 % aktiven Parametern übertrifft Dense-Modelle mit 3–14-fach mehr Aktivierungen

Redaktionelle Illustration: Konstellation von Experten-Modulen um einen zentralen Router mit verschiedenen Sprachglyphen

Marco-MoE ist eine neue Open-Source-Familie von Sparse-Mixture-of-Experts-Modellen, die am 28. April 2026 von einem Team um Jiang, Zhao und Kollegen veröffentlicht wurde. Die Modelle aktivieren pro Token nur etwa 5 % der Gesamtparameter, wurden durch Upcycling aus Dense-Modellen auf 5 Billionen Tokens trainiert, und die Instruct-Varianten übertreffen Dense-Konkurrenten mit 3 bis 14-fach mehr aktivierten Parametern. Gewichte, Datensatz und Trainingsrezept sind öffentlich verfügbar.

Ein Team aus acht Forschern (Fan Jiang, Yu Zhao, Chenyang Lyu, Tianqi Shi, Yichao Du, Feihu Jiang, Longyue Wang, Weihua Luo) veröffentlichte am 28. April 2026 das Preprint Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling. Es handelt sich um eines der seltenen vollständig offenen MoE-Modelle — einschließlich Trainingsdatensatz, Rezept und Gewichten.

Was ist Sparse MoE?

Mixture-of-Experts (MoE) ist eine Architektur, bei der das Modell mehrere „Experten” — parallele MLP-Module — hat, von denen der Router bei jedem Token nur einige aktiviert. Marco-MoE hat ein extrem spärliches Design, bei dem pro Eingabe-Token nur etwa 5 % der Gesamtparameter aktiviert werden, was eine effiziente Skalierung der Gesamtkapazität ohne proportional steigende Inferenzkosten ermöglicht.

Upcycling als Trainingsrezept

Anstatt von Grund auf zu trainieren, verwenden die Autoren Upcycling: Bestehende Dense-Modelle werden in eine MoE-Architektur umgewandelt, indem MLP-Schichten in Experten kopiert und ein Router-Netzwerk hinzugefügt wird. Danach folgen 5 Billionen Tokens zusätzliches Pre-Training. Die als Ausgangspunkt verwendeten Dense-Modelle werden im Abstract nicht explizit genannt, aber der Ansatz hat sich in früheren Arbeiten (Mixtral, Qwen-MoE) als wirksam erwiesen.

Marco-MoE-Instruct-Varianten, die durch Post-Training gewonnen wurden, übertreffen Modelle mit 3 bis 14-fach mehr aktiven Parametern auf englischen und mehrsprachigen Benchmarks. Konkrete Parameterzahlen (z. B. 7B aktive, 56B gesamt) sind in der abgerufenen Zusammenfassung nicht angegeben.

Was sagen sie über Sprachen?

Der interessanteste Teil der Analyse: Marco-MoE erlernt strukturierte Experten-Aktivierungsmuster, die für verwandte Sprachen gemeinsam sind, während sprachlich isolierte Sprachen hochspezialisierte Experten erhalten. Die Autoren zeigen, dass dies eine skalierbare Spracherweiterung ohne Interferenz ermöglicht — eine ernsthafte operative Eigenschaft für den mehrsprachigen Einsatz.

Warum ist die Veröffentlichung bedeutsam?

Chinesische Teams (Qwen, DeepSeek, Yi) haben 2025–2026 die Führung bei Open-Weight-Modellen übernommen, aber nur wenige veröffentlichen den vollständigen Stack — Gewichte, Datensatz und Rezept. Marco-MoE gehört zu dieser seltenen Kategorie vollständiger Offenheit, die der Forschungsgemeinschaft eine unabhängige Replikation und den Aufbau abgeleiteter Modelle ermöglicht.

Häufig gestellte Fragen

Was ist „Upcycling” bei MoE-Modellen?
Eine Technik, bei der ein bestehendes Dense-Modell durch Kopieren der MLP-Schichten in Experten und Hinzufügen eines Router-Netzwerks in eine MoE-Architektur umgewandelt wird. Rechenaufwand wird gespart, weil kein MoE von Grund auf trainiert wird, und die Leistungsfähigkeit des Dense-Modells wird übernommen.
Was wurde öffentlich veröffentlicht?
Vollständige Trainingsdatensätze, Rezepte (Verfahren und Hyperparameter) sowie Modellgewichte in Base- und Instruct-Varianten. Dies ermöglicht eine unabhängige Replikation und Fine-Tuning auf eigenen Domänen.
Welche sprachlichen Eigenschaften hat das Modell?
Die Analyse zeigt, dass Marco-MoE strukturierte Experten-Aktivierungsmuster erlernt, die für verwandte Sprachen gemeinsam sind, während sprachlich isolierte Sprachen hochspezialisierte Experten erhalten. Dies ermöglicht eine skalierbare Spracherweiterung ohne die für Dense-Modelle typischen Interferenzen.
🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.