IBM Granite 4.1:15Tトークンで訓練されたオープンソース3B/8B/30B Apache 2.0モデルファミリー、密な8Bモデルが32B MoEに匹敵
IBMは2026年4月29日、HuggingFaceブログにGranite 4.1モデルファミリーの構築詳細を公開しました。Apache 2.0ライセンスのもと3B、8B、30Bの密なバリアントが提供されています。5段階パイプライン戦略で約15Tトークンを訓練し、GRPO+DAPOロスを使用した4段階RLを採用。Granite 4.1-8B Instructはほとんどのベンチマークで前世代のGranite 4.0-H-Small(32B-A9B MoE)に匹敵または上回るパフォーマンスを示し、密なモデルが同じアクティベーションバジェットでMoEの品質に到達できることを示しています。
IBMは2026年4月29日、HuggingFaceブログにGranite 4.1構築に関する技術的な詳細解説を公開しました。Apache 2.0ライセンスのオープンソースLLMファミリーです。この投稿は標準的なマーケティング的リリースよりも大幅に詳細で、事前訓練パイプライン、RLフェーズ、ベンチマーク結果の具体的な数字が含まれています。
サイズとアーキテクチャ
3種類の密なバリアント(MoEではなく):
| サイズ | 層数 | 埋め込み次元 | KVヘッド |
|---|---|---|---|
| 3B | 40 | 2,560 | 8 GQA |
| 8B | 40 | 4,096 | 8 GQA |
| 30B | 64 | 4,096 | 8 GQA |
すべてのバリアントはGQA(Grouped Query Attention)、RoPE、SwiGLUアクティベーション、RMSNormを使用。最終フェーズで80%書籍+20%コードのトレーニングミックスで段階的長コンテキスト拡張(LCE)により512Kトークンまでスケール可能。
5段階の事前訓練(約15Tトークン)
洗練された戦略:
| フェーズ | トークン数 | フォーカス |
|---|---|---|
| 1 | 10T | 一般(59% CommonCrawl、20%コード、7%数学) |
| 2 | 2T | 数学/コード重視(35%数学、30%コード) |
| 3 | 2T | 高品質アニーリング + 12.5% CoT |
| 4 | 0.5T | 精緻化(40% CommonCrawl-HQ、9%言語指示) |
| 5 | 可変 | 長コンテキスト拡張 32K→128K→512K |
SFT + 4段階RLパイプライン
事前訓練後:
- SFT:約410万のキュレーションサンプル、3エポック、学習率5e-6、16Kシーケンス長
- RLパイプラインはオンポリシーGRPOとDAPOロス(Yu et al., 2025)を使用:
- マルチドメインRL(45,504プロンプト)
- RLHF(17,920プロンプト)→ AlpacaEvalで約+18.9点
- アイデンティティ&知識較正RL(1,728プロンプト)
- 数学RL(13,504プロンプト)→ GSM8K +3.8、DeepMind-Math +23.48
主要結果:8B密 ≈ 32B MoE
最も興味深い発見:Granite 4.1-8B Instructが前世代のGranite 4.0-H-Small(32B-A9B MoE)に匹敵または上回ります:
- IFEval、AlpacaEval、MMLU-Pro、BBH(一般)
- GSM8K、DeepMind-Math(数学)
- HumanEval+、ArenaHard、BFCL V3、MBPP+(コード)
8B Instructの具体的な数字:MMLU 73.84、GSM8K 92.49、HumanEval 87.20、AlpacaEval 2.0 50.08、IFEval平均 87.06、BFCL v3 68.27。
これは同じアクティベーションバジェットでMoEの優位性が縮まっていることを示しています — 8B密(8Bアクティブ)は32B-A9B MoE(9Bアクティブ)と競合できます。MixtralとDeepSeek-V3のトレンドとは逆です。
長コンテキストパフォーマンス
RULERベンチマーク:
- 8B-base: 83.6(32K)→ 79.1(64K)→ 73.0(128K)
- 30B-base: 85.2(32K)→ 84.6(64K)→ 76.7(128K)
512Kは利用可能ですが、RULERはその長さでは評価されていません。
インフラとデプロイ
NVIDIA GB200 NVL72クラスター(72 GPU NVLinkドメイン、NDR 400 Gb/s InfiniBand)でトレーニング。FP8量子化は推論に利用可能(ディスク/GPUメモリが約50%削減)。対応12言語:英語、ドイツ語、スペイン語、フランス語、日本語、ポルトガル語、アラビア語、チェコ語、イタリア語、韓国語、オランダ語、中国語。
リソース:
- HuggingFace:
ibm-granite/granite-41-language-models - GitHub:
ibm-granite/granite-4.1-language-models
よくある質問
- Granite 4.1はどのサイズとアーキテクチャを提供していますか?
- 3種類の密なバリアント:3B(40層、2,560埋め込み次元)、8B(40層、4,096埋め込み次元)、30B(64層、4,096埋め込み次元)。すべてGrouped Query Attention(8 KVヘッド)、RoPE、SwiGLU、RMSNormを使用。段階的長コンテキスト拡張(LCE)により512Kトークンまでスケール可能。
- 5段階の事前訓練戦略とは何ですか?
- フェーズ1(10Tトークン):一般(59% CommonCrawl、20%コード、7%数学)。フェーズ2(2T):数学/コード重視。フェーズ3(2T):12.5% CoTデータを含む高品質アニーリング。フェーズ4(0.5T):精緻化。フェーズ5(可変):長コンテキスト拡張(32K→128K→512K)、80%書籍+20%コード。
- 8Bが32B MoEに匹敵するとはどういうことですか?
- Granite 4.1-8B InstructはIFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、HumanEval+、ArenaHard、BFCL V3、MBPP+において前世代のGranite 4.0-H-Small(32B-A9B MoE)に匹敵または上回ります。比較可能なアクティブパラメータでMoEの優位性が縮まっていることを示しています。
この記事はAIにより一次情報源から生成されました。