IBM Granite 4.1:在150亿词元上训练的3B/8B/30B Apache 2.0开源模型家族,稠密8B可与32B MoE媲美
IBM于2026年4月29日在HuggingFace博客发布了Granite 4.1模型家族的构建细节——3B、8B和30B稠密变体,采用Apache 2.0许可证。在约15T词元上通过5阶段流水线策略训练,使用GRPO+DAPO损失的4阶段强化学习。Granite 4.1-8B Instruct在大多数基准测试上与前代Granite 4.0-H-Small(32B-A9B MoE)持平或超越——表明稠密模型在相同激活参数预算下可达到MoE质量。
IBM于2026年4月29日在HuggingFace博客发布了关于Granite 4.1构建的技术深度解析——这是一个采用Apache 2.0许可证的开源大语言模型家族。该文章比标准营销发布更为详细,包含预训练流水线、强化学习阶段和基准结果的具体数据。
规模与架构
三种稠密变体(非MoE):
| 规模 | 层数 | 嵌入维度 | KV头 |
|---|---|---|---|
| 3B | 40 | 2,560 | 8 GQA |
| 8B | 40 | 4,096 | 8 GQA |
| 30B | 64 | 4,096 | 8 GQA |
所有变体均使用GQA(分组查询注意力)、RoPE、SwiGLU激活和RMSNorm。通过分阶段长上下文扩展(LCE),上下文可扩展至512K词元,最后阶段训练混合为80%书籍+20%代码。
5阶段预训练(约15T词元)
精密策略:
| 阶段 | 词元数 | 重点 |
|---|---|---|
| 1 | 10T | 通用(59% CommonCrawl,20%代码,7%数学) |
| 2 | 2T | 数学/代码强调(35%数学,30%代码) |
| 3 | 2T | 高质量退火 + 12.5% CoT |
| 4 | 0.5T | 精炼(40% CommonCrawl-HQ,9%语言指令) |
| 5 | 可变 | 长上下文扩展 32K→128K→512K |
监督微调 + 4阶段强化学习流水线
预训练之后:
- SFT:约410万精选样本,3个轮次,学习率5e-6,16K序列长度
- 强化学习流水线使用在线GRPO与DAPO损失(Yu等,2025):
- 多领域RL(45,504个提示)
- RLHF(17,920个提示)→ AlpacaEval约+18.9分
- 身份与知识校准RL(1,728个提示)
- 数学RL(13,504个提示)→ GSM8K +3.8分,DeepMind-Math +23.48分
关键结果:8B稠密 ≈ 32B MoE
最有趣的发现:Granite 4.1-8B Instruct与前代Granite 4.0-H-Small(32B-A9B MoE)在以下指标上持平或超越:
- IFEval、AlpacaEval、MMLU-Pro、BBH(通用)
- GSM8K、DeepMind-Math(数学)
- HumanEval+、ArenaHard、BFCL V3、MBPP+(代码)
8B Instruct具体数字:MMLU 73.84,GSM8K 92.49,HumanEval 87.20,AlpacaEval 2.0 50.08,IFEval平均87.06,BFCL v3 68.27。
这表明在相同激活参数预算下,MoE的优势已经缩小——8B稠密(8B激活)可与32B-A9B MoE(9B激活)相媲美。与Mixtral和DeepSeek-V3的趋势相反。
长上下文性能
RULER基准测试:
- 8B-base: 83.6(32K)→ 79.1(64K)→ 73.0(128K)
- 30B-base: 85.2(32K)→ 84.6(64K)→ 76.7(128K)
512K可用但RULER未在该长度上评估。
基础设施与部署
在NVIDIA GB200 NVL72集群(72-GPU NVLink域,NDR 400 Gb/s InfiniBand)上训练。FP8量化可用于推理(磁盘/GPU内存减少约50%)。支持12种语言:英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语、中文。
资源:
- HuggingFace:
ibm-granite/granite-41-language-models - GitHub:
ibm-granite/granite-4.1-language-models
常见问题
- Granite 4.1提供哪些规模和架构?
- 三种稠密变体:3B(40层,2,560嵌入维度)、8B(40层,4,096嵌入维度)、30B(64层,4,096嵌入维度)。均使用分组查询注意力(8个KV头)、RoPE、SwiGLU和RMSNorm。通过分阶段长上下文扩展(LCE),上下文可扩展至512K词元。
- 5阶段预训练策略是什么?
- 第1阶段(10T词元):通用数据(59% CommonCrawl,20%代码,7%数学)。第2阶段(2T):数学/代码强调。第3阶段(2T):12.5% CoT数据的高质量退火。第4阶段(0.5T):精炼。第5阶段(可变):长上下文扩展(32K→128K→512K),80%书籍+20%代码。
- 8B与32B MoE媲美意味着什么?
- Granite 4.1-8B Instruct在IFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、HumanEval+、ArenaHard、BFCL V3和MBPP+上达到或超越前代Granite 4.0-H-Small(32B-A9B MoE)。表明在可比激活参数下,MoE的优势已经缩小。
本文由人工智能基于一手来源生成。