Was bedeutet Mixture-of-Experts?

Mixture-of-Experts (MoE) ist eine Architektur, bei der ein Modell mehrere spezialisierte Teilmodelle ('Experten') und eine Router-Komponente hat, die für jede Eingabe entscheidet, welcher Experte antwortet. So kann das Modell eine große Kapazität haben, während pro Anfrage nur ein Teil der Parameter aktiviert wird, was Rechenressourcen spart.

Was ist 'katastrophales Vergessen' und wie löst BAR dieses Problem?

Katastrophales Vergessen bezeichnet das Problem, bei dem neues Training dazu führt, dass ein Modell altes Wissen 'vergisst' — die Verbesserung der Mathematik beeinträchtigt die Code-Fähigkeiten. BAR löst dies, indem jeder Experte in Isolation auf seiner eigenen Domäne trainiert wird; das Zusammenführen über einen Router bedeutet, dass das Hinzufügen eines neuen Experten bestehende nicht beeinträchtigt.

Können bestehende Modelle BAR nutzen?

Die Demonstration erfolgt auf OLMo 2 7B, dem offenen Modell des Allen Institute. Die Methodik selbst ist auf jedes Transformer-Modell anwendbar, erfordert jedoch Ressourcen zum parallelen Training mehrerer Experten. Für die Open-Source-Gemeinschaft ist das eine wichtige Neuerung — sie ermöglicht die verteilte Modellentwicklung, bei der verschiedene Teams verschiedene Experten beisteuern.

Allen Institute BAR: Modulares MoE Post-Training

Was ist BAR und wie funktioniert es?

Das Allen Institute for AI veröffentlichte am 20. April 2026 BAR (Branch-Adapt-Route), einen neuen modularen Ansatz zum Post-Training von Sprachmodellen. Anstatt des klassischen monolithischen Ansatzes — bei dem ein einziges Modell eine große Post-Training-Pipeline durchläuft — ermöglicht BAR das unabhängige Training mehrerer spezialisierter Experten:

Mathematik
Code
Tool Use (Nutzung externer Werkzeuge)
Sicherheit

Jeder Experte wird separat auf seiner Domäne trainiert und dann über einen Routing-Mechanismus zu einem einheitlichen Mixture-of-Experts (MoE)-Modell zusammengeführt. Die MoE-Architektur bedeutet, dass das Modell mehrere spezialisierte Teilmodelle hat und der Router für jede Anfrage bestimmt, welcher Experte antwortet.

Wie stark verbessert BAR die Leistung?

Ergebnisse auf OLMo 2 7B, dem offenen Modell des Allen Institute, gemessen über 19 Benchmarks:

49,1 durchschnittlicher Score (vs. 47,8 für das monolithische Retraining-Baseline)
+7,8 Punkte für Mathematik
+4,7 Punkte für Code

Ein durchschnittlicher Unterschied von 1,3 Punkten mag bescheiden wirken, aber in domänenspezifischen Bereichen wie Mathematik und Code ist eine Verbesserung von 5–8 Punkten signifikant — insbesondere weil sie ohne Verschlechterung in anderen Bereichen erzielt wird.

Warum ist Modularität wichtiger als der Benchmark-Score?

Der eigentliche Durchbruch von BAR ist nicht der Benchmark-Score, sondern die Möglichkeit der inkrementellen Verbesserung. Im klassischen Ansatz erfordert jede größere Verbesserung ein vollständiges Retraining — einen erneuten Start des teuren Post-Training-Prozesses. Mit BAR können einzelne Experten ausgetauscht oder aktualisiert werden, ohne das restliche System zu beeinträchtigen:

Ersetzen des Code-Experten durch einen neuen, besseren: +16,5 Punkte für Code
Hinzufügen von Reinforcement Learning (RL) für den Mathematik-Experten: +13 Punkte für Mathematik

Dieser Ansatz ähnelt der Softwareentwicklung — modulare Dienste, die unabhängig voneinander aktualisiert werden — statt eines monolithischen Neuaufbaus des gesamten Systems.

Was löst BAR beim Problem des katastrophalen Vergessens?

Eines der größten Probleme in der KI-Forschung ist das katastrophale Vergessen: Neues Wissen “löscht” altes. Wenn Sie ein Modell für Mathematik feinabstimmen, besteht die reale Gefahr, seine Fähigkeiten in anderen Bereichen (z. B. Poesie, Dialog, Code) zu verschlechtern. Das macht inkrementelle Verbesserungen riskant.

BAR löst dies elegant durch Experten-Isolation — während jeder Experte in seiner Domäne trainiert, berührt er die Gewichte anderer Experten nicht. Der Router lernt nur, wann welcher Experte zu nutzen ist. So kann Spezialisierung hinzugefügt werden, ohne Regression zu befürchten.

Implikationen für die Open-Source-Gemeinschaft

Für offene Modelle eröffnet BAR eine sehr wichtige Möglichkeit — verteilte Entwicklung. Verschiedene Forschungsteams können verschiedene Experten beisteuern, die dann zu einem gemeinsamen Modell zusammengeführt werden. Dieser Ansatz könnte die Evolution von Open-Source-Modellen drastisch beschleunigen.

In der Praxis schlagen die BAR-Autoren ein Muster vor, bei dem das “Basis”-Modell lange Zeit stabil bleibt und Verbesserungen durch die Veröffentlichung neuer Experten kommen. Das könnte verändern, wie die Open-Source-KI-Gemeinschaft zusammenarbeitet — weniger “Wer hat das beste 7B-Modell”, mehr “Wessen Mathematik-Experte ist derzeit der beste.”

Das Allen Institute hat damit seine Position als einer der wichtigsten Akteure in der offenen KI-Forschung bestätigt, mit dem Vorteil der Veröffentlichung der gesamten Methodik und der Expertengewichte.

Allen Institute BAR: Modulares Post-Training mit Mixture-of-Experts bringt +7,8 Punkte für Mathematik auf OLMo 2 7B

Was ist BAR und wie funktioniert es?

Wie stark verbessert BAR die Leistung?

Warum ist Modularität wichtiger als der Benchmark-Score?

Was löst BAR beim Problem des katastrophalen Vergessens?

Implikationen für die Open-Source-Gemeinschaft

Quellen

Verwandte Nachrichten