IBM Granite 4.1：开源Apache 2.0，3B/8B/30B，15T词元

IBM于2026年4月29日在HuggingFace博客发布了Granite 4.1模型家族的构建细节——3B、8B和30B稠密变体，采用Apache 2.0许可证。在约15T词元上通过5阶段流水线策略训练，使用GRPO+DAPO损失的4阶段强化学习。Granite 4.1-8B Instruct在大多数基准测试上与前代Granite 4.0-H-Small（32B-A9B MoE）持平或超越——表明稠密模型在相同激活参数预算下可达到MoE质量。

IBM于2026年4月29日在HuggingFace博客发布了关于Granite 4.1构建的技术深度解析——这是一个采用Apache 2.0许可证的开源大语言模型家族。该文章比标准营销发布更为详细，包含预训练流水线、强化学习阶段和基准结果的具体数据。

规模与架构

三种稠密变体（非MoE）：

规模	层数	嵌入维度	KV头
3B	40	2,560	8 GQA
8B	40	4,096	8 GQA
30B	64	4,096	8 GQA

所有变体均使用GQA（分组查询注意力）、RoPE、SwiGLU激活和RMSNorm。通过分阶段长上下文扩展（LCE），上下文可扩展至512K词元，最后阶段训练混合为80%书籍+20%代码。

5阶段预训练（约15T词元）

精密策略：

阶段	词元数	重点
1	10T	通用（59% CommonCrawl，20%代码，7%数学）
2	2T	数学/代码强调（35%数学，30%代码）
3	2T	高质量退火 + 12.5% CoT
4	0.5T	精炼（40% CommonCrawl-HQ，9%语言指令）
5	可变	长上下文扩展 32K→128K→512K

监督微调 + 4阶段强化学习流水线

预训练之后：

SFT：约410万精选样本，3个轮次，学习率5e-6，16K序列长度
强化学习流水线使用在线GRPO与DAPO损失（Yu等，2025）：
1. 多领域RL（45,504个提示）
2. RLHF（17,920个提示）→ AlpacaEval约+18.9分
3. 身份与知识校准RL（1,728个提示）
4. 数学RL（13,504个提示）→ GSM8K +3.8分，DeepMind-Math +23.48分

关键结果：8B稠密 ≈ 32B MoE

最有趣的发现：Granite 4.1-8B Instruct与前代Granite 4.0-H-Small（32B-A9B MoE）在以下指标上持平或超越：

IFEval、AlpacaEval、MMLU-Pro、BBH（通用）
GSM8K、DeepMind-Math（数学）
HumanEval+、ArenaHard、BFCL V3、MBPP+（代码）

8B Instruct具体数字：MMLU 73.84，GSM8K 92.49，HumanEval 87.20，AlpacaEval 2.0 50.08，IFEval平均87.06，BFCL v3 68.27。

这表明在相同激活参数预算下，MoE的优势已经缩小——8B稠密（8B激活）可与32B-A9B MoE（9B激活）相媲美。与Mixtral和DeepSeek-V3的趋势相反。

长上下文性能

RULER基准测试：

8B-base： 83.6（32K）→ 79.1（64K）→ 73.0（128K）
30B-base： 85.2（32K）→ 84.6（64K）→ 76.7（128K）

512K可用但RULER未在该长度上评估。

基础设施与部署

在NVIDIA GB200 NVL72集群（72-GPU NVLink域，NDR 400 Gb/s InfiniBand）上训练。FP8量化可用于推理（磁盘/GPU内存减少约50%）。支持12种语言：英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语、中文。

资源：

HuggingFace：ibm-granite/granite-41-language-models
GitHub：ibm-granite/granite-4.1-language-models

常见问题

Granite 4.1提供哪些规模和架构？

三种稠密变体：3B（40层，2,560嵌入维度）、8B（40层，4,096嵌入维度）、30B（64层，4,096嵌入维度）。均使用分组查询注意力（8个KV头）、RoPE、SwiGLU和RMSNorm。通过分阶段长上下文扩展（LCE），上下文可扩展至512K词元。

5阶段预训练策略是什么？

第1阶段（10T词元）：通用数据（59% CommonCrawl，20%代码，7%数学）。第2阶段（2T）：数学/代码强调。第3阶段（2T）：12.5% CoT数据的高质量退火。第4阶段（0.5T）：精炼。第5阶段（可变）：长上下文扩展（32K→128K→512K），80%书籍+20%代码。

8B与32B MoE媲美意味着什么？

Granite 4.1-8B Instruct在IFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、HumanEval+、ArenaHard、BFCL V3和MBPP+上达到或超越前代Granite 4.0-H-Small（32B-A9B MoE）。表明在可比激活参数下，MoE的优势已经缩小。

IBM Granite 4.1：在150亿词元上训练的3B/8B/30B Apache 2.0开源模型家族，稠密8B可与32B MoE媲美