DiffusionGemma 26B: AI生成4倍高速化

DiffusionGemmaはGoogleの26B MoEモデルで、逐次的ではなく並列的な拡散アプローチでテキストを生成します。1台のH100 GPUで毎秒1,000トークン以上を達成し、標準的な自己回帰モデルより最大4倍高速ですが、Gemma 4と比較して品質面でのトレードオフがあります。

GoogleはDiffusionGemmaを発表しました。これはこれまでのすべての人気言語モデルとは根本的に異なる方法でテキストを生成する26Bモデルです。

拡散テキスト生成とはどういう意味か？

拡散テキスト生成（diffusion text generation）は、GPTや標準的なGemma 4のような従来の自己回帰モデルとは逆の原理で機能します。1つずつトークンを逐次的にループで生成するのではなく、DiffusionGemmaは各フォワードパスで256トークンのブロック全体を並列に生成します。結果として、最新のGPUハードウェアでのスループットが劇的に向上します。

実際にどれほど高速か？

1台のNVIDIA H100 GPUで、モデルは毎秒1,000トークン以上を達成します。コンシューマー向けRTX 5090では700トークン/秒以上です。Googleの測定によると、同じGPU上で同等の自己回帰モデルより最大4倍高速です。この差は長い生成や高スループット要求での場合に特に顕著です。

アクセシビリティとトレードオフ

DiffusionGemmaはApache 2.0ライセンスのオープンソースモデルとして利用できます。量子化バージョンはわずか18GBのVRAMに収まり、ミッドレンジのコンシューマーカードでも実用的です。モデルはHugging Face、Google Cloud Model Garden、NVIDIA NIMプラットフォームで公開されています。

アーキテクチャ: アクティブパラメータ38億のMoE

合計260億パラメータの規模にもかかわらず、DiffusionGemmaはMixture-of-Experts（MoE）アーキテクチャを使用しています — 各推論で38億パラメータのみを活性化します。これにより呼び出しあたりの計算コストが削減され、限られたリソースへのデプロイが容易になります。

速度のコスト

Googleはトレードオフを隠しません。テキスト品質は標準的なGemma 4よりも若干低いです。DiffusionGemmaは、スループットが重要なシナリオ — 大量生成、ストリーミングアプリケーション、エッジ推論 — を対象に設計されており、最高精度を必要とするタスクには向いていません。品質を優先する本番アプリケーションには、Gemma 4が引き続き優れた選択です。

よくある質問

拡散テキスト生成とは何ですか？

拡散テキスト生成（diffusion text generation）は、自己回帰モデルがトークンを順次1つずつ生成するのとは異なり、モデルが1回のパスで並列にトークンのブロック全体を生成するアプローチです。

DiffusionGemma 26BはGemma 4と同等の品質ですか？

いいえ — GoogleはGemma 4の標準的な品質よりも若干低いと明示しています。DiffusionGemmaは速度に最適化されており、品質のトレードオフは意識的な設計上の選択です。

Google: DiffusionGemma 26B — 拡散アプローチによる4倍高速なテキスト生成