Google:DiffusionGemma 26B — 扩散方法实现4倍更快的文本生成
DiffusionGemma是谷歌260亿参数MoE模型,采用扩散方法并行生成文本。在单张H100 GPU上每秒生成超过1000个令牌,比标准自回归模型快4倍,但质量相较Gemma 4有所妥协。
本文由人工智能基于一手来源生成。
谷歌发布了DiffusionGemma——一个以与所有现有主流语言模型截然不同方式生成文本的260亿参数模型。
扩散文本生成意味着什么?
扩散文本生成的原理与GPT或标准Gemma 4等经典自回归模型相反。它不是逐个令牌顺序生成——在循环中依次输出——而是在每次前向传播中并行生成256个令牌的完整块。这使现代GPU硬件上的吞吐量大幅提升。
实际快了多少?
在单张NVIDIA H100 GPU上,该模型每秒可生成超过1000个令牌。在消费级RTX 5090显卡上,速度超过700令牌/秒。根据谷歌的测量,这比同等硬件上的自回归模型快4倍——在长文本生成或高吞吐量需求场景下差距尤为显著。
可用性与权衡
DiffusionGemma以Apache 2.0许可证作为开源模型发布。量化版本仅需18GB显存,即使在中端消费级显卡上也实用可行。模型已在Hugging Face、Google Cloud Model Garden和NVIDIA NIM平台上发布。
架构:MoE,激活参数38亿
尽管总参数量达260亿,DiffusionGemma采用专家混合(MoE)架构——每次推理仅激活38亿参数。这降低了每次调用的计算成本,便于在资源受限环境中部署。
速度的代价
谷歌并不掩盖这一权衡:文本质量略低于标准Gemma 4。DiffusionGemma专为吞吐量至关重要的场景设计——大批量生成、流式应用、边缘推理——而非需要最高精度的任务。对于质量优先的生产应用,Gemma 4仍是更好的选择。
常见问题
- 什么是扩散文本生成?
- 扩散文本生成是一种在单次前向传播中并行生成整个令牌块的方法,与逐个顺序生成令牌的自回归模型截然不同。
- DiffusionGemma 26B的质量与Gemma 4相当吗?
- 不——谷歌明确指出其质量略低于标准Gemma 4。DiffusionGemma针对速度进行了优化,质量上的妥协是这一设计选择的有意结果。