🟢 📦 开源 2026年4月30日星期四 · 2 分钟阅读 ·

IBM Granite 4.1:在150亿词元上训练的3B/8B/30B Apache 2.0开源模型家族,稠密8B可与32B MoE媲美

编辑插图:花岗岩块与翻开的书,象征开放权重许可证

IBM于2026年4月29日在HuggingFace博客发布了Granite 4.1模型家族的构建细节——3B、8B和30B稠密变体,采用Apache 2.0许可证。在约15T词元上通过5阶段流水线策略训练,使用GRPO+DAPO损失的4阶段强化学习。Granite 4.1-8B Instruct在大多数基准测试上与前代Granite 4.0-H-Small(32B-A9B MoE)持平或超越——表明稠密模型在相同激活参数预算下可达到MoE质量。

IBM于2026年4月29日在HuggingFace博客发布了关于Granite 4.1构建的技术深度解析——这是一个采用Apache 2.0许可证的开源大语言模型家族。该文章比标准营销发布更为详细,包含预训练流水线、强化学习阶段和基准结果的具体数据。

规模与架构

三种稠密变体(非MoE):

规模层数嵌入维度KV头
3B402,5608 GQA
8B404,0968 GQA
30B644,0968 GQA

所有变体均使用GQA(分组查询注意力)、RoPESwiGLU激活和RMSNorm。通过分阶段长上下文扩展(LCE),上下文可扩展至512K词元,最后阶段训练混合为80%书籍+20%代码。

5阶段预训练(约15T词元)

精密策略:

阶段词元数重点
110T通用(59% CommonCrawl,20%代码,7%数学)
22T数学/代码强调(35%数学,30%代码)
32T高质量退火 + 12.5% CoT
40.5T精炼(40% CommonCrawl-HQ,9%语言指令)
5可变长上下文扩展 32K→128K→512K

监督微调 + 4阶段强化学习流水线

预训练之后:

  • SFT:约410万精选样本,3个轮次,学习率5e-6,16K序列长度
  • 强化学习流水线使用在线GRPO与DAPO损失Yu等,2025):
    1. 多领域RL(45,504个提示)
    2. RLHF(17,920个提示)→ AlpacaEval约+18.9分
    3. 身份与知识校准RL(1,728个提示)
    4. 数学RL(13,504个提示)→ GSM8K +3.8分,DeepMind-Math +23.48分

关键结果:8B稠密 ≈ 32B MoE

最有趣的发现:Granite 4.1-8B Instruct与前代Granite 4.0-H-Small(32B-A9B MoE)在以下指标上持平或超越:

  • IFEval、AlpacaEval、MMLU-Pro、BBH(通用)
  • GSM8K、DeepMind-Math(数学)
  • HumanEval+、ArenaHard、BFCL V3、MBPP+(代码)

8B Instruct具体数字:MMLU 73.84,GSM8K 92.49,HumanEval 87.20,AlpacaEval 2.0 50.08,IFEval平均87.06,BFCL v3 68.27。

这表明在相同激活参数预算下,MoE的优势已经缩小——8B稠密(8B激活)可与32B-A9B MoE(9B激活)相媲美。与Mixtral和DeepSeek-V3的趋势相反。

长上下文性能

RULER基准测试:

  • 8B-base: 83.6(32K)→ 79.1(64K)→ 73.0(128K)
  • 30B-base: 85.2(32K)→ 84.6(64K)→ 76.7(128K)

512K可用但RULER未在该长度上评估。

基础设施与部署

NVIDIA GB200 NVL72集群(72-GPU NVLink域,NDR 400 Gb/s InfiniBand)上训练。FP8量化可用于推理(磁盘/GPU内存减少约50%)。支持12种语言:英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语、中文。

资源:

  • HuggingFace:ibm-granite/granite-41-language-models
  • GitHub:ibm-granite/granite-4.1-language-models

常见问题

Granite 4.1提供哪些规模和架构?
三种稠密变体:3B(40层,2,560嵌入维度)、8B(40层,4,096嵌入维度)、30B(64层,4,096嵌入维度)。均使用分组查询注意力(8个KV头)、RoPE、SwiGLU和RMSNorm。通过分阶段长上下文扩展(LCE),上下文可扩展至512K词元。
5阶段预训练策略是什么?
第1阶段(10T词元):通用数据(59% CommonCrawl,20%代码,7%数学)。第2阶段(2T):数学/代码强调。第3阶段(2T):12.5% CoT数据的高质量退火。第4阶段(0.5T):精炼。第5阶段(可变):长上下文扩展(32K→128K→512K),80%书籍+20%代码。
8B与32B MoE媲美意味着什么?
Granite 4.1-8B Instruct在IFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、HumanEval+、ArenaHard、BFCL V3和MBPP+上达到或超越前代Granite 4.0-H-Small(32B-A9B MoE)。表明在可比激活参数下,MoE的优势已经缩小。
🤖

本文由人工智能基于一手来源生成。