IBM Granite 4.1：オープンApache 2.0、3B/8B/30B、15Tトークン

IBMは2026年4月29日、HuggingFaceブログにGranite 4.1モデルファミリーの構築詳細を公開しました。Apache 2.0ライセンスのもと3B、8B、30Bの密なバリアントが提供されています。5段階パイプライン戦略で約15Tトークンを訓練し、GRPO+DAPOロスを使用した4段階RLを採用。Granite 4.1-8B Instructはほとんどのベンチマークで前世代のGranite 4.0-H-Small（32B-A9B MoE）に匹敵または上回るパフォーマンスを示し、密なモデルが同じアクティベーションバジェットでMoEの品質に到達できることを示しています。

IBMは2026年4月29日、HuggingFaceブログにGranite 4.1構築に関する技術的な詳細解説を公開しました。Apache 2.0ライセンスのオープンソースLLMファミリーです。この投稿は標準的なマーケティング的リリースよりも大幅に詳細で、事前訓練パイプライン、RLフェーズ、ベンチマーク結果の具体的な数字が含まれています。

サイズとアーキテクチャ

3種類の密なバリアント（MoEではなく）：

サイズ	層数	埋め込み次元	KVヘッド
3B	40	2,560	8 GQA
8B	40	4,096	8 GQA
30B	64	4,096	8 GQA

すべてのバリアントはGQA（Grouped Query Attention）、RoPE、SwiGLUアクティベーション、RMSNormを使用。最終フェーズで80%書籍+20%コードのトレーニングミックスで段階的長コンテキスト拡張（LCE）により512Kトークンまでスケール可能。

5段階の事前訓練（約15Tトークン）

洗練された戦略：

フェーズ	トークン数	フォーカス
1	10T	一般（59% CommonCrawl、20%コード、7%数学）
2	2T	数学/コード重視（35%数学、30%コード）
3	2T	高品質アニーリング + 12.5% CoT
4	0.5T	精緻化（40% CommonCrawl-HQ、9%言語指示）
5	可変	長コンテキスト拡張 32K→128K→512K

SFT + 4段階RLパイプライン

事前訓練後：

SFT：約410万のキュレーションサンプル、3エポック、学習率5e-6、16Kシーケンス長
RLパイプラインはオンポリシーGRPOとDAPOロス（Yu et al., 2025）を使用：
1. マルチドメインRL（45,504プロンプト）
2. RLHF（17,920プロンプト）→ AlpacaEvalで約+18.9点
3. アイデンティティ＆知識較正RL（1,728プロンプト）
4. 数学RL（13,504プロンプト）→ GSM8K +3.8、DeepMind-Math +23.48

主要結果：8B密 ≈ 32B MoE

最も興味深い発見：Granite 4.1-8B Instructが前世代のGranite 4.0-H-Small（32B-A9B MoE）に匹敵または上回ります：

IFEval、AlpacaEval、MMLU-Pro、BBH（一般）
GSM8K、DeepMind-Math（数学）
HumanEval+、ArenaHard、BFCL V3、MBPP+（コード）

8B Instructの具体的な数字：MMLU 73.84、GSM8K 92.49、HumanEval 87.20、AlpacaEval 2.0 50.08、IFEval平均 87.06、BFCL v3 68.27。

これは同じアクティベーションバジェットでMoEの優位性が縮まっていることを示しています — 8B密（8Bアクティブ）は32B-A9B MoE（9Bアクティブ）と競合できます。MixtralとDeepSeek-V3のトレンドとは逆です。

長コンテキストパフォーマンス

RULERベンチマーク：

8B-base： 83.6（32K）→ 79.1（64K）→ 73.0（128K）
30B-base： 85.2（32K）→ 84.6（64K）→ 76.7（128K）

512Kは利用可能ですが、RULERはその長さでは評価されていません。

インフラとデプロイ

NVIDIA GB200 NVL72クラスター（72 GPU NVLinkドメイン、NDR 400 Gb/s InfiniBand）でトレーニング。FP8量子化は推論に利用可能（ディスク/GPUメモリが約50%削減）。対応12言語：英語、ドイツ語、スペイン語、フランス語、日本語、ポルトガル語、アラビア語、チェコ語、イタリア語、韓国語、オランダ語、中国語。

リソース：

HuggingFace：ibm-granite/granite-41-language-models
GitHub：ibm-granite/granite-4.1-language-models

よくある質問

Granite 4.1はどのサイズとアーキテクチャを提供していますか？

3種類の密なバリアント：3B（40層、2,560埋め込み次元）、8B（40層、4,096埋め込み次元）、30B（64層、4,096埋め込み次元）。すべてGrouped Query Attention（8 KVヘッド）、RoPE、SwiGLU、RMSNormを使用。段階的長コンテキスト拡張（LCE）により512Kトークンまでスケール可能。

5段階の事前訓練戦略とは何ですか？

フェーズ1（10Tトークン）：一般（59% CommonCrawl、20%コード、7%数学）。フェーズ2（2T）：数学/コード重視。フェーズ3（2T）：12.5% CoTデータを含む高品質アニーリング。フェーズ4（0.5T）：精緻化。フェーズ5（可変）：長コンテキスト拡張（32K→128K→512K）、80%書籍+20%コード。

8Bが32B MoEに匹敵するとはどういうことですか？

Granite 4.1-8B InstructはIFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、HumanEval+、ArenaHard、BFCL V3、MBPP+において前世代のGranite 4.0-H-Small（32B-A9B MoE）に匹敵または上回ります。比較可能なアクティブパラメータでMoEの優位性が縮まっていることを示しています。

IBM Granite 4.1：15Tトークンで訓練されたオープンソース3B/8B/30B Apache 2.0モデルファミリー、密な8Bモデルが32B MoEに匹敵