什么是流匹配（Flow Matching）？

流匹配是一种生成建模方法，直接学习将一个分布映射到另一个分布的向量场，类似于扩散模型，但所需积分步骤更少。

YAN为何比扩散语言模型更快？

因为它将全局传输分解为专用专家（MoE），从而将所需积分步骤减少到仅3步，而扩散语言模型通常需要数百步。

YAN：混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速

YAN是什么？

YAN是论文《通过MoE流匹配加速语言模型推理》中提出的新型语言模型，结合了两种架构：Transformer（标准注意力机制）和Mamba（具有线性扩展的状态空间模型）。这一混合体驱动混合专家（MoE）流匹配框架——一种生成建模方法，模型不是逐token自回归生成，而是学习一个传输向量场，并行地将噪声转化为有意义的文本。

核心创新在于分解：YAN不使用单一全局流场，而是通过MoE机制学习多个局部专用向量场。每个专家覆盖潜在空间更窄的几何区域，从而解决标准流匹配模型在语言任务上面临的各向异性（方向依赖）和多模态分布问题。

实际节省了多少？

数据相当惊人：

相对同等规模自回归（AR）基线加速40倍
相对扩散语言模型最高加速1000倍
仅需3个采样步骤，而扩散语言模型需要数百步
根据作者评估，质量与AR模型相当

作为参考，标准自回归LLM每次前向传递生成一个token。YAN通过3个并行步骤生成完整序列——理论上意味着批量大小可以大幅增加而延迟不会线性增长。

为什么这可能很重要？

在过去七年里，自回归范式主导了语言建模——尽管推理速度慢，但在可用的GPU集群上最容易训练。扩散语言模型（如Mercury或LLaDA）承诺并行性，但数百个采样步骤仍使其不够实用。

YAN的方法——带有局部专用MoE专家的流匹配——可能是第三条路，在保持扩散速度的同时减少步骤数量。如果结果在更大规模上得到复现，将为一代推理延迟以毫秒而非秒计算的模型打开大门。

还需要证明什么？

作者Aihua Li将论文作为arXiv预印本发布，未明确说明同行评审发表情况。主要悬而未决的问题：

规模化： 这是小型模型（数十亿参数以内）的演示，还是结果在70B+模型上同样稳健？
任务复杂度： YAN能否在复杂推理和长上下文任务上达到AR模型质量，而不仅仅是短序列生成？
开源代码： 若作者发布实现代码，这些问题中相当一部分将很快得到解答。

目前，YAN是一个理论上令人着迷的信号，表明自回归范式面临着认真的竞争。

YAN：混合专家流匹配模型仅需3个采样步骤即可实现自回归语言模型40倍加速

YAN是什么？

实际节省了多少？

为什么这可能很重要？

还需要证明什么？

来源

相关新闻