🟢 📦 オープンソース 2026年4月30日木曜日 · 2 分で読めます ·

IBM Granite 4.1:15Tトークンで訓練されたオープンソース3B/8B/30B Apache 2.0モデルファミリー、密な8Bモデルが32B MoEに匹敵

編集イラスト:オープンウェイトライセンスのシンボルとして開いた本を持つ花崗岩のブロック

IBMは2026年4月29日、HuggingFaceブログにGranite 4.1モデルファミリーの構築詳細を公開しました。Apache 2.0ライセンスのもと3B、8B、30Bの密なバリアントが提供されています。5段階パイプライン戦略で約15Tトークンを訓練し、GRPO+DAPOロスを使用した4段階RLを採用。Granite 4.1-8B Instructはほとんどのベンチマークで前世代のGranite 4.0-H-Small(32B-A9B MoE)に匹敵または上回るパフォーマンスを示し、密なモデルが同じアクティベーションバジェットでMoEの品質に到達できることを示しています。

IBMは2026年4月29日、HuggingFaceブログGranite 4.1構築に関する技術的な詳細解説を公開しました。Apache 2.0ライセンスのオープンソースLLMファミリーです。この投稿は標準的なマーケティング的リリースよりも大幅に詳細で、事前訓練パイプライン、RLフェーズ、ベンチマーク結果の具体的な数字が含まれています。

サイズとアーキテクチャ

3種類の密なバリアント(MoEではなく):

サイズ層数埋め込み次元KVヘッド
3B402,5608 GQA
8B404,0968 GQA
30B644,0968 GQA

すべてのバリアントはGQA(Grouped Query Attention)、RoPESwiGLUアクティベーション、RMSNormを使用。最終フェーズで80%書籍+20%コードのトレーニングミックスで段階的長コンテキスト拡張(LCE)により512Kトークンまでスケール可能。

5段階の事前訓練(約15Tトークン)

洗練された戦略:

フェーズトークン数フォーカス
110T一般(59% CommonCrawl、20%コード、7%数学)
22T数学/コード重視(35%数学、30%コード)
32T高品質アニーリング + 12.5% CoT
40.5T精緻化(40% CommonCrawl-HQ、9%言語指示)
5可変長コンテキスト拡張 32K→128K→512K

SFT + 4段階RLパイプライン

事前訓練後:

  • SFT:約410万のキュレーションサンプル、3エポック、学習率5e-6、16Kシーケンス長
  • RLパイプラインオンポリシーGRPOとDAPOロスYu et al., 2025)を使用:
    1. マルチドメインRL(45,504プロンプト)
    2. RLHF(17,920プロンプト)→ AlpacaEvalで約+18.9点
    3. アイデンティティ&知識較正RL(1,728プロンプト)
    4. 数学RL(13,504プロンプト)→ GSM8K +3.8、DeepMind-Math +23.48

主要結果:8B密 ≈ 32B MoE

最も興味深い発見:Granite 4.1-8B Instructが前世代のGranite 4.0-H-Small(32B-A9B MoE)に匹敵または上回ります:

  • IFEval、AlpacaEval、MMLU-Pro、BBH(一般)
  • GSM8K、DeepMind-Math(数学)
  • HumanEval+、ArenaHard、BFCL V3、MBPP+(コード)

8B Instructの具体的な数字:MMLU 73.84、GSM8K 92.49、HumanEval 87.20、AlpacaEval 2.0 50.08、IFEval平均 87.06、BFCL v3 68.27。

これは同じアクティベーションバジェットでMoEの優位性が縮まっていることを示しています — 8B密(8Bアクティブ)は32B-A9B MoE(9Bアクティブ)と競合できます。MixtralとDeepSeek-V3のトレンドとは逆です。

長コンテキストパフォーマンス

RULERベンチマーク:

  • 8B-base: 83.6(32K)→ 79.1(64K)→ 73.0(128K)
  • 30B-base: 85.2(32K)→ 84.6(64K)→ 76.7(128K)

512Kは利用可能ですが、RULERはその長さでは評価されていません。

インフラとデプロイ

NVIDIA GB200 NVL72クラスター(72 GPU NVLinkドメイン、NDR 400 Gb/s InfiniBand)でトレーニング。FP8量子化は推論に利用可能(ディスク/GPUメモリが約50%削減)。対応12言語:英語、ドイツ語、スペイン語、フランス語、日本語、ポルトガル語、アラビア語、チェコ語、イタリア語、韓国語、オランダ語、中国語。

リソース:

  • HuggingFace:ibm-granite/granite-41-language-models
  • GitHub:ibm-granite/granite-4.1-language-models

よくある質問

Granite 4.1はどのサイズとアーキテクチャを提供していますか?
3種類の密なバリアント:3B(40層、2,560埋め込み次元)、8B(40層、4,096埋め込み次元)、30B(64層、4,096埋め込み次元)。すべてGrouped Query Attention(8 KVヘッド)、RoPE、SwiGLU、RMSNormを使用。段階的長コンテキスト拡張(LCE)により512Kトークンまでスケール可能。
5段階の事前訓練戦略とは何ですか?
フェーズ1(10Tトークン):一般(59% CommonCrawl、20%コード、7%数学)。フェーズ2(2T):数学/コード重視。フェーズ3(2T):12.5% CoTデータを含む高品質アニーリング。フェーズ4(0.5T):精緻化。フェーズ5(可変):長コンテキスト拡張(32K→128K→512K)、80%書籍+20%コード。
8Bが32B MoEに匹敵するとはどういうことですか?
Granite 4.1-8B InstructはIFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、HumanEval+、ArenaHard、BFCL V3、MBPP+において前世代のGranite 4.0-H-Small(32B-A9B MoE)に匹敵または上回ります。比較可能なアクティブパラメータでMoEの優位性が縮まっていることを示しています。
🤖

この記事はAIにより一次情報源から生成されました。