🟢 📦 Open Source Donnerstag, 30. April 2026 · 3 Min. Lesezeit ·

IBM Granite 4.1: Open-Source-Familie mit 3B/8B/30B Apache-2.0-Modellen, trainiert auf 15B Token, zeigt, dass ein dichtes 8B-Modell ein 32B-MoE-Modell ebenbürtig ist

Redaktionelle Illustration: Granitblöcke mit einem aufgeschlagenen Buch als Symbol der Open-Weights-Lizenz

Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog Details zum Aufbau der Granite-4.1-Modellfamilie — 3B, 8B und 30B Dense-Varianten unter der Apache-2.0-Lizenz. Trainiert auf ~15B Token durch eine 5-Phasen-Pipeline-Strategie mit einem 4-Phasen-RL unter Verwendung von GRPO+DAPO-Loss. Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) auf den meisten Benchmarks — und zeigt, dass dichte Modelle bei gleichem Aktivierungsbudget MoE-Qualität erreichen.

Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog einen technischen Deep-Dive über den Aufbau von Granite 4.1 — einer Open-Source-Familie von LLMs unter der Apache-2.0-Lizenz. Der Beitrag ist deutlich detaillierter als ein Standard-Marketing-Launch und enthält konkrete Zahlen zur Vortraining-Pipeline, zu den RL-Phasen und zu den Benchmark-Ergebnissen.

Größen und Architektur

Drei Dense-Varianten (KEIN MoE):

GrößeSchichtenEmbed-DimKV-Heads
3B402.5608 GQA
8B404.0968 GQA
30B644.0968 GQA

Alle Varianten verwenden GQA (Grouped Query Attention), RoPE, SwiGLU-Aktivierungen und RMSNorm. Der Kontext skaliert durch gestufte Long-Context Extension (LCE) auf bis zu 512K Token — mit einem Trainings-Mix aus 80 % Bücher + 20 % Code in der letzten Phase.

5-Phasen-Vortraining (~15B Token)

Eine ausgefeilte Strategie:

PhaseTokenFokus
110BAllgemein (59 % CommonCrawl, 20 % Code, 7 % Mathematik)
22BSchwerpunkt Mathematik/Code (35 % Mathematik, 30 % Code)
32BHochwertiges Annealing + 12,5 % CoT
40,5BVerfeinerung (40 % CommonCrawl-HQ, 9 % Sprachanweisungen)
5variabelLong-Context-Extension 32K→128K→512K

SFT + 4-Phasen-RL-Pipeline

Nach dem Vortraining:

  • SFT auf ~4,1 M kuratierten Samples, 3 Epochen, Lernrate 5e-6, Sequenzlänge 16K
  • RL-Pipeline verwendet On-Policy-GRPO mit DAPO-Loss (Yu et al., 2025):
    1. Multi-Domain-RL (45.504 Prompts)
    2. RLHF (17.920 Prompts) → ~18,9 Punkte Gewinn bei AlpacaEval
    3. Identity & Knowledge-Calibration RL (1.728 Prompts)
    4. Mathematik-RL (13.504 Prompts) → +3,8 GSM8K, +23,48 DeepMind-Math

Schlüsselergebnis: 8B Dense ≈ 32B MoE

Der interessanteste Befund: Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) bei:

  • IFEval, AlpacaEval, MMLU-Pro, BBH (allgemein)
  • GSM8K, DeepMind-Math (Mathematik)
  • HumanEval+, ArenaHard, BFCL V3, MBPP+ (Code)

Konkrete 8B-Instruct-Zahlen: MMLU 73,84, GSM8K 92,49, HumanEval 87,20, AlpacaEval 2.0 50,08, IFEval Avg 87,06, BFCL v3 68,27.

Das deutet darauf hin, dass sich der MoE-Vorteil bei gleichem Aktivierungsbudget verringert hat — 8B Dense (8B aktiv) kann es mit 32B-A9B MoE (9B aktiv) aufnehmen. Dies steht im Gegensatz zu den Trends von Mixtral und DeepSeek-V3.

Long-Context-Leistung

Im RULER-Benchmark:

  • 8B-base: 83,6 (32K) → 79,1 (64K) → 73,0 (128K)
  • 30B-base: 85,2 (32K) → 84,6 (64K) → 76,7 (128K)

512K ist verfügbar, wurde jedoch im RULER nicht auf dieser Länge evaluiert.

Infrastruktur und Deployment

Training auf NVIDIA-GB200-NVL72-Clustern (72-GPU-NVLink-Domänen, NDR 400 Gb/s InfiniBand). FP8-Quantisierung für die Inferenz verfügbar (~50 % Reduzierung von Festplatten-/GPU-Speicher). Unterstützte 12 Sprachen: Englisch, Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch, Chinesisch.

Ressourcen:

  • HuggingFace: ibm-granite/granite-41-language-models
  • GitHub: ibm-granite/granite-4.1-language-models

Häufig gestellte Fragen

Welche Größen und welche Architektur bietet Granite 4.1?
Drei Dense-Varianten: 3B (40 Schichten, 2.560 Embed), 8B (40 Schichten, 4.096 Embed), 30B (64 Schichten, 4.096 Embed). Alle verwenden Grouped Query Attention (8 KV-Heads), RoPE, SwiGLU, RMSNorm. Der Kontext skaliert durch gestufte Long-Context Extension (LCE) auf bis zu 512K Token.
Was ist die 5-Phasen-Vortraining-Strategie?
Phase 1 (10B Token): allgemein (59 % CommonCrawl, 20 % Code, 7 % Mathematik). Phase 2 (2B): Schwerpunkt Mathematik/Code. Phase 3 (2B): hochwertiges Annealing mit 12,5 % CoT-Daten. Phase 4 (0,5B): Verfeinerung. Phase 5 (variabel): Long-Context-Extension (32K→128K→512K) auf 80 % Bücher + 20 % Code.
Was bedeutet es, dass das 8B-Modell ein 32B-MoE-Modell ebenbürtig ist?
Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) bei IFEval, AlpacaEval, MMLU-Pro, BBH, GSM8K, DeepMind-Math, HumanEval+, ArenaHard, BFCL V3 und MBPP+. Dies deutet darauf hin, dass sich der MoE-Vorteil bei vergleichbaren aktiven Parametern verringert hat.
🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.