arXiv:2606.20560: DiffusionGemma 可解释性与 Gemma 4 相当——28.6× 差距缩小至 1.1×
DiffusionGemma 是谷歌在连续潜在空间中运行的扩散语言模型。一项由 Neel Nanda 领衔的 13 位作者研究表明,其初始不透明度比 Gemma 4 高 28.6 倍,但可解释性令牌瓶颈将该差距缩小至仅 1.1 倍。
本文由人工智能基于一手来源生成。
DiffusionGemma:可监控性与 Gemma 4 相当的扩散语言模型
由 Joshua Engels、Callum McDougall、Bilal Chughtai 和 Neel Nanda 领衔的 13 位研究人员于 2026 年 6 月 18 日发表了一篇论文,首次系统研究了扩散语言模型的可解释性。研究聚焦于 DiffusionGemma——谷歌通过连续潜在空间中的扩散过程生成文本的模型,而非自回归逐词生成方式。
初始发现:不透明度是 Gemma 4 的 28.6 倍
未经任何调整时,DiffusionGemma 的「不透明串行深度」比同等规模的自回归模型 Gemma 4 高出 28.6 倍。这一结果似乎表明扩散模型从根本上阻碍了监控与可解释性,对安全性与对齐而言将是严重问题。
解决方案:可解释令牌瓶颈将差距缩小至 1.1×
该论文的核心贡献是「可解释令牌瓶颈」技术——将模型的内部表示映射到研究人员可读的空间。应用该技术后,DiffusionGemma 与 Gemma 4 之间的差距从 28.6 倍降至仅 1.1 倍,两者在可监控性方面几乎持平。
三种新的扩散模型特有现象
论文识别出仅在扩散语言模型中出现的现象:
- 非时序推理 —— 模型不从左到右顺序推理
- 令牌与序列模糊扩散 —— 信息同时「扩散」到多个位置
- 中间上下文推理 —— 模型以自回归架构中无对应物的方式使用层间上下文
结论:扩散语言模型同样可以实现高度可监控
作者得出结论:扩散语言模型可以与自回归模型一样具备可监控性——但这需要专门构建的可解释性工具,而非直接套用为 GPT 类模型开发的方法。该论文为在生产环境中日益普及的扩散语言模型的安全审计开辟了道路。
常见问题
- DiffusionGemma 是什么?它与标准语言模型有何不同?
- DiffusionGemma 是谷歌的语言模型,通过连续潜在空间中的扩散过程生成文本,而非 GPT 或 Gemma 4 所采用的经典自回归逐词生成方式。
- DiffusionGemma 与 Gemma 4 在可解释性方面的差距有多大?
- 未经任何调整时,DiffusionGemma 的「不透明串行深度」比 Gemma 4 高 28.6 倍;但引入可解释令牌瓶颈后,差距缩小至仅 1.1 倍,两者在可监控性上几乎相当。
- 研究发现了哪些扩散模型特有的现象?
- 研究识别出三种新现象:非时序推理、令牌与序列模糊扩散,以及中间上下文推理——这些特征是扩散模型所独有的,在自回归架构中并不存在。