arXiv：PoE-Bridge 将扩散 LM 加速 5×

一篇新论文提出 PoE-Bridge，一种通过 Product-of-Experts 分布桥接扩散语言模型与自回归语言模型的解码框架。该方法相比标准扩散解码实现 5× 加速，同时恢复目标模型至少 95% 的性能。

arXiv 于 2026 年 6 月 6 日发表了一篇论文（编号 arXiv:2606.08048，版本 v1），提出了 PoE-Bridge，一种用于显著加快文本生成的解码框架。该方法结合两类语言模型，以利用其中一类的速度和另一类的质量。

PoE-Bridge 解决什么问题？

扩散语言模型（DLM）承诺快速、并行的生成，但其质量往往落后于自回归模型（AR），后者逐个产生 token 并达到顶尖的准确性。开发上的挑战在于把前者的速度与后者的质量结合起来。

PoE-Bridge 正是弥合了这一鸿沟。它不在快速和高质量的方案之间二选一，而是将两者结合，使结果既保留自回归模型的大部分质量，又在速度上显著获益。

该方法的核心是通过 Product-of-Experts 中间分布桥接扩散模型与自回归模型。Product-of-Experts（专家乘积）是一种把多个模型的输出通过概率相乘进行组合的技术，只保留对所有参与者都可信的候选。

在 PoE-Bridge 中，这一中间分布将扩散模型与自回归模型连接起来，使扩散部分提供快速、并行的候选，而自回归部分确保最终输出保持高质量。

该方法进行 parallel drafting（同时预测多个 token）并配合 rejection sampling（拒绝采样），随后进行 importance-sampling 校正。按此顺序，先快速生成一组候选，然后丢弃与目标分布不符的候选，最后对剩余结果进行统计上的修正。

这一流程使多个 token 能够一次性处理，而不是严格按序处理。由此获得了扩散模型特有的加速，同时不放弃自回归生成所带来的质量。

根据论文，PoE-Bridge 相比标准 DLM 解码实现 5× 加速。同时它恢复目标自回归模型至少 95% 的性能，这意味着速度上的巨大收益只伴随很小的质量损失。

这一比例使该方法在既看重吞吐量又看重准确性的应用中颇具吸引力。用户获得更快的响应，同时无需显著牺牲结果的可靠性。

论文指出在数学推理和代码任务上有显著进步。在这些领域，即便是 token 序列中的微小偏差也可能破坏最终结果，因此保持 95% 的性能尤为可贵。

正因如此，该结果对于开发面向复杂推理的模型很有意义。PoE-Bridge 表明扩散方法也能用于要求严苛、对精度敏感的任务，而不仅是简单的文本生成。

常见问题

什么是 PoE-Bridge？

PoE-Bridge 是一种解码框架，它通过 Product-of-Experts 中间分布桥接扩散语言模型（DLM）与自回归语言模型（AR）。其目标是在保留自回归模型质量的同时加速文本生成。

它能实现多大的加速？

PoE-Bridge 相比标准 DLM 解码实现 5× 加速。同时它恢复目标自回归模型至少 95% 的性能，这意味着速度上的收益只伴随很小的质量损失。

该方法在哪里表现最突出？

论文指出在数学推理和代码任务上有显著进步。这些领域中 token 序列的准确性对最终结果影响很大，因此在更高速度下保持质量尤为可贵。