Allen Institute EMO: MoE mit emergenter Modularität

EMO ist ein neues MoE-Sprachmodell des Allen Institute mit 1 Mrd. aktiven und 14 Mrd. Gesamtparametern, trainiert auf 1 Billion Tokens. Experten organisieren sich selbst in semantische Domänen — bei 25 % aktiver Experten beträgt der Leistungsverlust nur 1 %.

Das Allen Institute for AI (Ai2) veröffentlichte am 8. Mai 2026 EMO — ein spärliches Mixture-of-Experts (MoE) Sprachmodell, das ohne manuelle Labels eine natürliche semantische Modularität unter seinen Experten entwickelt. Das Modell hat 1 Milliarde aktive und 14 Milliarden Gesamtparameter, mit 128 Experten, von denen 8 pro Token aktiv sind, und wurde auf 1 Billion Tokens trainiert.

Wie erreicht EMO emergente Modularität?

EMO nutzt Dokumentgrenzen als schwaches Aufsichtssignal: Alle Tokens innerhalb desselben Dokuments müssen aktive Experten aus einem gemeinsamen Pool wählen. Diese einfache Einschränkung reicht aus, damit sich Experten während des Trainings selbst in kohärente Gruppen organisieren, die selektiv genutzt und kombiniert werden können. MoE (Mixture of Experts) ist eine Architektur, bei der pro Token nur eine Teilmenge aller verfügbaren Expertennetzwerke aktiviert wird, was große Kapazität bei geringerem Rechenaufwand ermöglicht.

Was zeigen die Pruning-Experimente?

Bei Aktivierung von nur 25 % der Experten (32 von 128) verliert EMO lediglich ~1 % absolute Leistung, während bei 12,5 % der Experten (16 von 128) der Abfall etwa 3 % beträgt. Standard-MoE-Modelle degradieren unter denselben Bedingungen dramatisch, was darauf hindeutet, dass EMO funktional getrennte Experten-Teilmengen besitzt, die unterschiedliche thematische Bereiche abdecken.

In welche Domänen clustern sich die Experten?

Die Visualisierung der Expertenaktivierung zeigt Cluster, die semantischen Domänen entsprechen: „Health, Medical & Wellness”, „News Reporting”, „US Politics & Elections”, „Film & Music”. Standard-MoE gruppiert stattdessen Tokens nach oberflächlicher Syntax — Präpositionen, bestimmte Artikel und Interpunktion sind über Cluster verstreut.

Was ist öffentlich verfügbar?

Ai2 veröffentlichte das vollständige EMO-Modell und eine vergleichbare Standard-MoE-Baseline auf Hugging Face, Trainingscode auf GitHub sowie einen interaktiven Visualizer (emovisualization.netlify.app), der die Erkundung der Expertenaktivierung nach Domänen in Echtzeit ermöglicht.

Häufig gestellte Fragen

Was ist EMO und wie unterscheidet es sich von Standard-MoE-Modellen?

EMO ist ein spärliches Mixture-of-Experts-Sprachmodell, das ohne manuelle Labels semantische Modularität entwickelt — Experten clustern sich um Domänen wie Medizin oder Politik, während Standard-MoE-Modelle Tokens nach oberflächlicher Syntax gruppieren.

Wie viele Parameter und Experten hat EMO?

Das Modell hat 1 Milliarde aktive und 14 Milliarden Gesamtparameter, mit 128 Experten, von denen 8 pro Token aktiv sind. Es wurde auf 1 Billion Tokens trainiert.

Was wurde öffentlich veröffentlicht?

Ai2 veröffentlichte das vollständige EMO-Modell auf Hugging Face, eine vergleichbare Standard-MoE-Baseline, Trainingscode auf GitHub und einen interaktiven Visualizer auf emovisualization.netlify.app.

Allen Institute: EMO — MoE-Sprachmodell mit natürlicher semantischer Modularität aus Daten

Wie erreicht EMO emergente Modularität?

Was zeigen die Pruning-Experimente?

In welche Domänen clustern sich die Experten?

Was ist öffentlich verfügbar?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten