IBM Granite 4.1: Open-Source-Familie mit 3B/8B/30B Apache-2.0-Modellen, trainiert auf 15B Token, zeigt, dass ein dichtes 8B-Modell ein 32B-MoE-Modell ebenbürtig ist
Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog Details zum Aufbau der Granite-4.1-Modellfamilie — 3B, 8B und 30B Dense-Varianten unter der Apache-2.0-Lizenz. Trainiert auf ~15B Token durch eine 5-Phasen-Pipeline-Strategie mit einem 4-Phasen-RL unter Verwendung von GRPO+DAPO-Loss. Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) auf den meisten Benchmarks — und zeigt, dass dichte Modelle bei gleichem Aktivierungsbudget MoE-Qualität erreichen.
Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog einen technischen Deep-Dive über den Aufbau von Granite 4.1 — einer Open-Source-Familie von LLMs unter der Apache-2.0-Lizenz. Der Beitrag ist deutlich detaillierter als ein Standard-Marketing-Launch und enthält konkrete Zahlen zur Vortraining-Pipeline, zu den RL-Phasen und zu den Benchmark-Ergebnissen.
Größen und Architektur
Drei Dense-Varianten (KEIN MoE):
| Größe | Schichten | Embed-Dim | KV-Heads |
|---|---|---|---|
| 3B | 40 | 2.560 | 8 GQA |
| 8B | 40 | 4.096 | 8 GQA |
| 30B | 64 | 4.096 | 8 GQA |
Alle Varianten verwenden GQA (Grouped Query Attention), RoPE, SwiGLU-Aktivierungen und RMSNorm. Der Kontext skaliert durch gestufte Long-Context Extension (LCE) auf bis zu 512K Token — mit einem Trainings-Mix aus 80 % Bücher + 20 % Code in der letzten Phase.
5-Phasen-Vortraining (~15B Token)
Eine ausgefeilte Strategie:
| Phase | Token | Fokus |
|---|---|---|
| 1 | 10B | Allgemein (59 % CommonCrawl, 20 % Code, 7 % Mathematik) |
| 2 | 2B | Schwerpunkt Mathematik/Code (35 % Mathematik, 30 % Code) |
| 3 | 2B | Hochwertiges Annealing + 12,5 % CoT |
| 4 | 0,5B | Verfeinerung (40 % CommonCrawl-HQ, 9 % Sprachanweisungen) |
| 5 | variabel | Long-Context-Extension 32K→128K→512K |
SFT + 4-Phasen-RL-Pipeline
Nach dem Vortraining:
- SFT auf ~4,1 M kuratierten Samples, 3 Epochen, Lernrate 5e-6, Sequenzlänge 16K
- RL-Pipeline verwendet On-Policy-GRPO mit DAPO-Loss (Yu et al., 2025):
- Multi-Domain-RL (45.504 Prompts)
- RLHF (17.920 Prompts) → ~18,9 Punkte Gewinn bei AlpacaEval
- Identity & Knowledge-Calibration RL (1.728 Prompts)
- Mathematik-RL (13.504 Prompts) → +3,8 GSM8K, +23,48 DeepMind-Math
Schlüsselergebnis: 8B Dense ≈ 32B MoE
Der interessanteste Befund: Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) bei:
- IFEval, AlpacaEval, MMLU-Pro, BBH (allgemein)
- GSM8K, DeepMind-Math (Mathematik)
- HumanEval+, ArenaHard, BFCL V3, MBPP+ (Code)
Konkrete 8B-Instruct-Zahlen: MMLU 73,84, GSM8K 92,49, HumanEval 87,20, AlpacaEval 2.0 50,08, IFEval Avg 87,06, BFCL v3 68,27.
Das deutet darauf hin, dass sich der MoE-Vorteil bei gleichem Aktivierungsbudget verringert hat — 8B Dense (8B aktiv) kann es mit 32B-A9B MoE (9B aktiv) aufnehmen. Dies steht im Gegensatz zu den Trends von Mixtral und DeepSeek-V3.
Long-Context-Leistung
Im RULER-Benchmark:
- 8B-base: 83,6 (32K) → 79,1 (64K) → 73,0 (128K)
- 30B-base: 85,2 (32K) → 84,6 (64K) → 76,7 (128K)
512K ist verfügbar, wurde jedoch im RULER nicht auf dieser Länge evaluiert.
Infrastruktur und Deployment
Training auf NVIDIA-GB200-NVL72-Clustern (72-GPU-NVLink-Domänen, NDR 400 Gb/s InfiniBand). FP8-Quantisierung für die Inferenz verfügbar (~50 % Reduzierung von Festplatten-/GPU-Speicher). Unterstützte 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch, Chinesisch.
Ressourcen:
- HuggingFace:
ibm-granite/granite-41-language-models - GitHub:
ibm-granite/granite-4.1-language-models
Häufig gestellte Fragen
- Welche Größen und welche Architektur bietet Granite 4.1?
- Drei Dense-Varianten: 3B (40 Schichten, 2.560 Embed), 8B (40 Schichten, 4.096 Embed), 30B (64 Schichten, 4.096 Embed). Alle verwenden Grouped Query Attention (8 KV-Heads), RoPE, SwiGLU, RMSNorm. Der Kontext skaliert durch gestufte Long-Context Extension (LCE) auf bis zu 512K Token.
- Was ist die 5-Phasen-Vortraining-Strategie?
- Phase 1 (10B Token): allgemein (59 % CommonCrawl, 20 % Code, 7 % Mathematik). Phase 2 (2B): Schwerpunkt Mathematik/Code. Phase 3 (2B): hochwertiges Annealing mit 12,5 % CoT-Daten. Phase 4 (0,5B): Verfeinerung. Phase 5 (variabel): Long-Context-Extension (32K→128K→512K) auf 80 % Bücher + 20 % Code.
- Was bedeutet es, dass das 8B-Modell ein 32B-MoE-Modell ebenbürtig ist?
- Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) bei IFEval, AlpacaEval, MMLU-Pro, BBH, GSM8K, DeepMind-Math, HumanEval+, ArenaHard, BFCL V3 und MBPP+. Dies deutet darauf hin, dass sich der MoE-Vorteil bei vergleichbaren aktiven Parametern verringert hat.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
Marco-MoE: Open-Source-mehrsprachiges MoE mit 5 % aktiven Parametern übertrifft Dense-Modelle mit 3–14-fach mehr Aktivierungen
ONNX v1.21.0 erscheint mit Opset 26: neue CumProd- und BitCast-Operatoren, 2-Bit-Typen-Unterstützung und Python-3.14-Free-Threading-Experiment
OpenAI veröffentlicht Privacy Filter: 1,5 Mrd. Parameter, Apache-2.0-Lizenz, 128K-Kontext und State-of-the-Art-Erkennung von acht PII-Kategorien in einem Durchlauf