Allen Institute BAR: Modulares Post-Training mit Mixture-of-Experts bringt +7,8 Punkte für Mathematik auf OLMo 2 7B
Warum es wichtig ist
BAR (Branch-Adapt-Route) ist ein neuer modularer Ansatz zum Post-Training vom Allen Institute for AI, der unabhängiges Training von Domänen-Experten — Mathematik, Code, Tool Use, Sicherheit — und deren Zusammenführung in ein einheitliches Mixture-of-Experts-Modell ermöglicht. Ergebnisse auf OLMo 2 7B: 49,1 durchschnittlicher Score, +7,8 Punkte für Mathematik und +4,7 für Code gegenüber dem Baseline-Retraining.
Was ist BAR und wie funktioniert es?
Das Allen Institute for AI veröffentlichte am 20. April 2026 BAR (Branch-Adapt-Route), einen neuen modularen Ansatz zum Post-Training von Sprachmodellen. Anstatt des klassischen monolithischen Ansatzes — bei dem ein einziges Modell eine große Post-Training-Pipeline durchläuft — ermöglicht BAR das unabhängige Training mehrerer spezialisierter Experten:
- Mathematik
- Code
- Tool Use (Nutzung externer Werkzeuge)
- Sicherheit
Jeder Experte wird separat auf seiner Domäne trainiert und dann über einen Routing-Mechanismus zu einem einheitlichen Mixture-of-Experts (MoE)-Modell zusammengeführt. Die MoE-Architektur bedeutet, dass das Modell mehrere spezialisierte Teilmodelle hat und der Router für jede Anfrage bestimmt, welcher Experte antwortet.
Wie stark verbessert BAR die Leistung?
Ergebnisse auf OLMo 2 7B, dem offenen Modell des Allen Institute, gemessen über 19 Benchmarks:
- 49,1 durchschnittlicher Score (vs. 47,8 für das monolithische Retraining-Baseline)
- +7,8 Punkte für Mathematik
- +4,7 Punkte für Code
Ein durchschnittlicher Unterschied von 1,3 Punkten mag bescheiden wirken, aber in domänenspezifischen Bereichen wie Mathematik und Code ist eine Verbesserung von 5–8 Punkten signifikant — insbesondere weil sie ohne Verschlechterung in anderen Bereichen erzielt wird.
Warum ist Modularität wichtiger als der Benchmark-Score?
Der eigentliche Durchbruch von BAR ist nicht der Benchmark-Score, sondern die Möglichkeit der inkrementellen Verbesserung. Im klassischen Ansatz erfordert jede größere Verbesserung ein vollständiges Retraining — einen erneuten Start des teuren Post-Training-Prozesses. Mit BAR können einzelne Experten ausgetauscht oder aktualisiert werden, ohne das restliche System zu beeinträchtigen:
- Ersetzen des Code-Experten durch einen neuen, besseren: +16,5 Punkte für Code
- Hinzufügen von Reinforcement Learning (RL) für den Mathematik-Experten: +13 Punkte für Mathematik
Dieser Ansatz ähnelt der Softwareentwicklung — modulare Dienste, die unabhängig voneinander aktualisiert werden — statt eines monolithischen Neuaufbaus des gesamten Systems.
Was löst BAR beim Problem des katastrophalen Vergessens?
Eines der größten Probleme in der KI-Forschung ist das katastrophale Vergessen: Neues Wissen “löscht” altes. Wenn Sie ein Modell für Mathematik feinabstimmen, besteht die reale Gefahr, seine Fähigkeiten in anderen Bereichen (z. B. Poesie, Dialog, Code) zu verschlechtern. Das macht inkrementelle Verbesserungen riskant.
BAR löst dies elegant durch Experten-Isolation — während jeder Experte in seiner Domäne trainiert, berührt er die Gewichte anderer Experten nicht. Der Router lernt nur, wann welcher Experte zu nutzen ist. So kann Spezialisierung hinzugefügt werden, ohne Regression zu befürchten.
Implikationen für die Open-Source-Gemeinschaft
Für offene Modelle eröffnet BAR eine sehr wichtige Möglichkeit — verteilte Entwicklung. Verschiedene Forschungsteams können verschiedene Experten beisteuern, die dann zu einem gemeinsamen Modell zusammengeführt werden. Dieser Ansatz könnte die Evolution von Open-Source-Modellen drastisch beschleunigen.
In der Praxis schlagen die BAR-Autoren ein Muster vor, bei dem das “Basis”-Modell lange Zeit stabil bleibt und Verbesserungen durch die Veröffentlichung neuer Experten kommen. Das könnte verändern, wie die Open-Source-KI-Gemeinschaft zusammenarbeitet — weniger “Wer hat das beste 7B-Modell”, mehr “Wessen Mathematik-Experte ist derzeit der beste.”
Das Allen Institute hat damit seine Position als einer der wichtigsten Akteure in der offenen KI-Forschung bestätigt, mit dem Vorteil der Veröffentlichung der gesamten Methodik und der Expertengewichte.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Allen AI: OlmoEarth-Embeddings ermöglichen Landschaftssegmentierung mit nur 60 Pixeln und einem F1-Wert von 0,84
Google DeepMind Decoupled DiLoCo: 20-fach geringere Netzwerkbandbreite für KI-Training über geografisch verteilte Rechenzentren
vLLM integriert DeepSeek V4 mit 8,7× kleinerem KV-Cache: eine Million Token Kontext auf Standard-GPU-Hardware