YAN:混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速
为什么重要
YAN是一款新型生成语言模型,融合了Transformer与Mamba架构以及混合专家流匹配方法——仅需3个采样步骤即可达到与自回归模型相当的质量,相对自回归基线实现40倍加速,比扩散语言模型最高提速1000倍。该模型将全局传输几何分解为局部专用向量场。
YAN是什么?
YAN是论文《通过MoE流匹配加速语言模型推理》中提出的新型语言模型,结合了两种架构:Transformer(标准注意力机制)和Mamba(具有线性扩展的状态空间模型)。这一混合体驱动混合专家(MoE)流匹配框架——一种生成建模方法,模型不是逐token自回归生成,而是学习一个传输向量场,并行地将噪声转化为有意义的文本。
核心创新在于分解:YAN不使用单一全局流场,而是通过MoE机制学习多个局部专用向量场。每个专家覆盖潜在空间更窄的几何区域,从而解决标准流匹配模型在语言任务上面临的各向异性(方向依赖)和多模态分布问题。
实际节省了多少?
数据相当惊人:
- 相对同等规模自回归(AR)基线加速40倍
- 相对扩散语言模型最高加速1000倍
- 仅需3个采样步骤,而扩散语言模型需要数百步
- 根据作者评估,质量与AR模型相当
作为参考,标准自回归LLM每次前向传递生成一个token。YAN通过3个并行步骤生成完整序列——理论上意味着批量大小可以大幅增加而延迟不会线性增长。
为什么这可能很重要?
在过去七年里,自回归范式主导了语言建模——尽管推理速度慢,但在可用的GPU集群上最容易训练。扩散语言模型(如Mercury或LLaDA)承诺并行性,但数百个采样步骤仍使其不够实用。
YAN的方法——带有局部专用MoE专家的流匹配——可能是第三条路,在保持扩散速度的同时减少步骤数量。如果结果在更大规模上得到复现,将为一代推理延迟以毫秒而非秒计算的模型打开大门。
还需要证明什么?
作者Aihua Li将论文作为arXiv预印本发布,未明确说明同行评审发表情况。主要悬而未决的问题:
- 规模化: 这是小型模型(数十亿参数以内)的演示,还是结果在70B+模型上同样稳健?
- 任务复杂度: YAN能否在复杂推理和长上下文任务上达到AR模型质量,而不仅仅是短序列生成?
- 开源代码: 若作者发布实现代码,这些问题中相当一部分将很快得到解答。
目前,YAN是一个理论上令人着迷的信号,表明自回归范式面临着认真的竞争。
本文由人工智能基于一手来源生成。