IBM Granite 4.1: offen Apache 2.0, 3B/8B/30B, 15B Token

Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog Details zum Aufbau der Granite-4.1-Modellfamilie — 3B, 8B und 30B Dense-Varianten unter der Apache-2.0-Lizenz. Trainiert auf ~15B Token durch eine 5-Phasen-Pipeline-Strategie mit einem 4-Phasen-RL unter Verwendung von GRPO+DAPO-Loss. Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) auf den meisten Benchmarks — und zeigt, dass dichte Modelle bei gleichem Aktivierungsbudget MoE-Qualität erreichen.

Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog einen technischen Deep-Dive über den Aufbau von Granite 4.1 — einer Open-Source-Familie von LLMs unter der Apache-2.0-Lizenz. Der Beitrag ist deutlich detaillierter als ein Standard-Marketing-Launch und enthält konkrete Zahlen zur Vortraining-Pipeline, zu den RL-Phasen und zu den Benchmark-Ergebnissen.

Größen und Architektur

Drei Dense-Varianten (KEIN MoE):

Größe	Schichten	Embed-Dim	KV-Heads
3B	40	2.560	8 GQA
8B	40	4.096	8 GQA
30B	64	4.096	8 GQA

Alle Varianten verwenden GQA (Grouped Query Attention), RoPE, SwiGLU-Aktivierungen und RMSNorm. Der Kontext skaliert durch gestufte Long-Context Extension (LCE) auf bis zu 512K Token — mit einem Trainings-Mix aus 80 % Bücher + 20 % Code in der letzten Phase.

5-Phasen-Vortraining (~15B Token)

Eine ausgefeilte Strategie:

Phase	Token	Fokus
1	10B	Allgemein (59 % CommonCrawl, 20 % Code, 7 % Mathematik)
2	2B	Schwerpunkt Mathematik/Code (35 % Mathematik, 30 % Code)
3	2B	Hochwertiges Annealing + 12,5 % CoT
4	0,5B	Verfeinerung (40 % CommonCrawl-HQ, 9 % Sprachanweisungen)
5	variabel	Long-Context-Extension 32K→128K→512K

SFT + 4-Phasen-RL-Pipeline

Nach dem Vortraining:

SFT auf ~4,1 M kuratierten Samples, 3 Epochen, Lernrate 5e-6, Sequenzlänge 16K
RL-Pipeline verwendet On-Policy-GRPO mit DAPO-Loss (Yu et al., 2025):
1. Multi-Domain-RL (45.504 Prompts)
2. RLHF (17.920 Prompts) → ~18,9 Punkte Gewinn bei AlpacaEval
3. Identity & Knowledge-Calibration RL (1.728 Prompts)
4. Mathematik-RL (13.504 Prompts) → +3,8 GSM8K, +23,48 DeepMind-Math

Schlüsselergebnis: 8B Dense ≈ 32B MoE

Der interessanteste Befund: Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) bei:

IFEval, AlpacaEval, MMLU-Pro, BBH (allgemein)
GSM8K, DeepMind-Math (Mathematik)
HumanEval+, ArenaHard, BFCL V3, MBPP+ (Code)

Konkrete 8B-Instruct-Zahlen: MMLU 73,84, GSM8K 92,49, HumanEval 87,20, AlpacaEval 2.0 50,08, IFEval Avg 87,06, BFCL v3 68,27.

Das deutet darauf hin, dass sich der MoE-Vorteil bei gleichem Aktivierungsbudget verringert hat — 8B Dense (8B aktiv) kann es mit 32B-A9B MoE (9B aktiv) aufnehmen. Dies steht im Gegensatz zu den Trends von Mixtral und DeepSeek-V3.

Long-Context-Leistung

Im RULER-Benchmark:

8B-base: 83,6 (32K) → 79,1 (64K) → 73,0 (128K)
30B-base: 85,2 (32K) → 84,6 (64K) → 76,7 (128K)

512K ist verfügbar, wurde jedoch im RULER nicht auf dieser Länge evaluiert.

Infrastruktur und Deployment

Training auf NVIDIA-GB200-NVL72-Clustern (72-GPU-NVLink-Domänen, NDR 400 Gb/s InfiniBand). FP8-Quantisierung für die Inferenz verfügbar (~50 % Reduzierung von Festplatten-/GPU-Speicher). Unterstützte 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch, Chinesisch.

Ressourcen:

HuggingFace: ibm-granite/granite-41-language-models
GitHub: ibm-granite/granite-4.1-language-models

Häufig gestellte Fragen

Welche Größen und welche Architektur bietet Granite 4.1?

Drei Dense-Varianten: 3B (40 Schichten, 2.560 Embed), 8B (40 Schichten, 4.096 Embed), 30B (64 Schichten, 4.096 Embed). Alle verwenden Grouped Query Attention (8 KV-Heads), RoPE, SwiGLU, RMSNorm. Der Kontext skaliert durch gestufte Long-Context Extension (LCE) auf bis zu 512K Token.

Was ist die 5-Phasen-Vortraining-Strategie?

Phase 1 (10B Token): allgemein (59 % CommonCrawl, 20 % Code, 7 % Mathematik). Phase 2 (2B): Schwerpunkt Mathematik/Code. Phase 3 (2B): hochwertiges Annealing mit 12,5 % CoT-Daten. Phase 4 (0,5B): Verfeinerung. Phase 5 (variabel): Long-Context-Extension (32K→128K→512K) auf 80 % Bücher + 20 % Code.

Was bedeutet es, dass das 8B-Modell ein 32B-MoE-Modell ebenbürtig ist?

Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) bei IFEval, AlpacaEval, MMLU-Pro, BBH, GSM8K, DeepMind-Math, HumanEval+, ArenaHard, BFCL V3 und MBPP+. Dies deutet darauf hin, dass sich der MoE-Vorteil bei vergleichbaren aktiven Parametern verringert hat.

IBM Granite 4.1: Open-Source-Familie mit 3B/8B/30B Apache-2.0-Modellen, trainiert auf 15B Token, zeigt, dass ein dichtes 8B-Modell ein 32B-MoE-Modell ebenbürtig ist