DiffusionGemma 26B：4倍更快的AI生成

DiffusionGemma是谷歌260亿参数MoE模型，采用扩散方法并行生成文本。在单张H100 GPU上每秒生成超过1000个令牌，比标准自回归模型快4倍，但质量相较Gemma 4有所妥协。

谷歌发布了DiffusionGemma——一个以与所有现有主流语言模型截然不同方式生成文本的260亿参数模型。

扩散文本生成意味着什么？

扩散文本生成的原理与GPT或标准Gemma 4等经典自回归模型相反。它不是逐个令牌顺序生成——在循环中依次输出——而是在每次前向传播中并行生成256个令牌的完整块。这使现代GPU硬件上的吞吐量大幅提升。

在单张NVIDIA H100 GPU上，该模型每秒可生成超过1000个令牌。在消费级RTX 5090显卡上，速度超过700令牌/秒。根据谷歌的测量，这比同等硬件上的自回归模型快4倍——在长文本生成或高吞吐量需求场景下差距尤为显著。

DiffusionGemma以Apache 2.0许可证作为开源模型发布。量化版本仅需18GB显存，即使在中端消费级显卡上也实用可行。模型已在Hugging Face、Google Cloud Model Garden和NVIDIA NIM平台上发布。

尽管总参数量达260亿，DiffusionGemma采用专家混合（MoE）架构——每次推理仅激活38亿参数。这降低了每次调用的计算成本，便于在资源受限环境中部署。

谷歌并不掩盖这一权衡：文本质量略低于标准Gemma 4。DiffusionGemma专为吞吐量至关重要的场景设计——大批量生成、流式应用、边缘推理——而非需要最高精度的任务。对于质量优先的生产应用，Gemma 4仍是更好的选择。

常见问题

什么是扩散文本生成？

扩散文本生成是一种在单次前向传播中并行生成整个令牌块的方法，与逐个顺序生成令牌的自回归模型截然不同。

DiffusionGemma 26B的质量与Gemma 4相当吗？

不——谷歌明确指出其质量略低于标准Gemma 4。DiffusionGemma针对速度进行了优化，质量上的妥协是这一设计选择的有意结果。