IBM Granite 4.1: open Apache 2.0, 3B/8B/30B, 15T tokena

IBM je 29. travnja 2026. na HuggingFace blogu objavio detalje izgradnje Granite 4.1 obitelji modela — 3B, 8B i 30B dense varijante pod Apache 2.0 licencom. Treniran na ~15T tokena kroz 5-faznu pipeline strategiju, s 4-faznim RL-om koji koristi GRPO+DAPO loss. Granite 4.1-8B Instruct match-a ili premašuje prethodni Granite 4.0-H-Small (32B-A9B MoE) na većini benchmarka — pokazujući da gusti modeli dosežu MoE kvalitetu pri istom aktivacijskom budžetu.

IBM je 29. travnja 2026. na HuggingFace blogu objavio tehnički deep-dive o izgradnji Granite 4.1 — open-source obitelji LLM-ova pod Apache 2.0 licencom. Post je značajno detaljniji od standardnih marketinških launcheva i uključuje konkretne brojke o pre-training pipelineu, RL fazama i benchmark rezultatima.

Veličine i arhitektura

Tri dense varijante (NE MoE):

Veličina	Layers	Embed dim	KV heads
3B	40	2.560	8 GQA
8B	40	4.096	8 GQA
30B	64	4.096	8 GQA

Sve varijante koriste GQA (Grouped Query Attention), RoPE, SwiGLU aktivacije i RMSNorm. Kontekst se skalira do 512K tokena kroz staged Long-Context Extension (LCE) s training mix-om 80% knjiga + 20% koda u zadnjoj fazi.

5-fazni pre-training (~15T tokena)

Sofisticirana strategija:

Faza	Tokeni	Fokus
1	10T	General (59% CommonCrawl, 20% Code, 7% Math)
2	2T	Math/Code emphasis (35% Math, 30% Code)
3	2T	High-quality annealing + 12.5% CoT
4	0.5T	Refinement (40% CommonCrawl-HQ, 9% language instructions)
5	varijable	Long-context extension 32K→128K→512K

SFT + 4-fazna RL pipeline

Nakon pre-traina:

SFT na ~4.1M curated samples, 3 epohe, 5e-6 learning rate, 16K sequence length
RL pipeline koristi on-policy GRPO s DAPO loss (Yu et al., 2025):
1. Multi-domain RL (45.504 promptova)
2. RLHF (17.920 promptova) → ~18.9 točke gain na AlpacaEval
3. Identity & Knowledge-Calibration RL (1.728 promptova)
4. Math RL (13.504 promptova) → +3.8 GSM8K, +23.48 DeepMind-Math

Ključni rezultat: 8B dense ≈ 32B MoE

Najzanimljiviji nalaz: Granite 4.1-8B Instruct match-a ili premašuje prethodni Granite 4.0-H-Small (32B-A9B MoE) na:

IFEval, AlpacaEval, MMLU-Pro, BBH (general)
GSM8K, DeepMind-Math (math)
HumanEval+, ArenaHard, BFCL V3, MBPP+ (code)

Konkretni 8B Instruct brojevi: MMLU 73.84, GSM8K 92.49, HumanEval 87.20, AlpacaEval 2.0 50.08, IFEval Avg 87.06, BFCL v3 68.27.

To sugerira da se MoE prednost suzila pri istom aktivacijskom budžetu — 8B dense (8B aktivna) može se mjeriti s 32B-A9B MoE (9B aktivna). Suprotnost trendovima Mixtrala i DeepSeek-V3.

Long context performance

Na RULER benchmarku:

8B-base: 83.6 (32K) → 79.1 (64K) → 73.0 (128K)
30B-base: 85.2 (32K) → 84.6 (64K) → 76.7 (128K)

512K je dostupan ali RULER nije evaluiran na toj duljini.

Infrastruktura i deployment

Trening na NVIDIA GB200 NVL72 cluster-ima (72-GPU NVLink domains, NDR 400 Gb/s InfiniBand). FP8 quantization dostupna za inference (~50% smanjenje disk/GPU memory). Podržanih 12 jezika: engleski, njemački, španjolski, francuski, japanski, portugalski, arapski, češki, talijanski, korejski, nizozemski, kineski.

Resursi:

HuggingFace: ibm-granite/granite-41-language-models
GitHub: ibm-granite/granite-4.1-language-models

Česta pitanja

Koje veličine i arhitekturu Granite 4.1 nudi?

Tri dense varijante: 3B (40 layers, 2,560 embed), 8B (40 layers, 4,096 embed), 30B (64 layers, 4,096 embed). Sve koriste Grouped Query Attention (8 KV heads), RoPE, SwiGLU, RMSNorm. Kontekst se skalira do 512K tokena kroz staged Long-Context Extension (LCE).

Koja je 5-fazna pre-training strategija?

Faza 1 (10T tokena): general (59% CommonCrawl, 20% Code, 7% Math). Faza 2 (2T): math/code emphasis. Faza 3 (2T): high-quality annealing s 12.5% CoT podataka. Faza 4 (0.5T): refinement. Faza 5 (variable): long-context extension (32K→128K→512K) na 80% Books + 20% Code.

Što znači da 8B match-a 32B MoE?

Granite 4.1-8B Instruct dostiže ili premašuje prethodni Granite 4.0-H-Small (32B-A9B MoE) na IFEval, AlpacaEval, MMLU-Pro, BBH, GSM8K, DeepMind-Math, HumanEval+, ArenaHard, BFCL V3 i MBPP+. Sugerira da se MoE prednost izvora kvalitete suzila pri usporedivim aktivnim parametrima.

IBM Granite 4.1: open-source obitelj 3B/8B/30B Apache 2.0 modela trenirana na 15T tokena pokazuje da gusti 8B model match-a 32B MoE