AI2：混合模型与词元预测对比分析

Allen Institute（AI2）分析了OLMo 3与OLMo混合架构，发现混合模型在预测语义相关、上下文依赖的词元方面表现更优，而纯Transformer在逐字复制文本时仍占优势。

什么是混合架构，为何值得关注？

混合架构将SSM（状态空间模型——以线性复杂度顺序处理文本的模型）与经典Transformer层相结合。Transformer使用注意力机制同时处理所有词元，而SSM则逐步处理序列，类似于循环神经网络。Allen Institute（AI2）研究了这种组合如何影响模型对不同词元的预测精度。

对OLMo 3和OLMo混合模型的分析结果显示出明显的分界线。混合架构在预测语义相关、上下文依赖的词元方面表现更优——这类词元需要理解句子或段落的更广泛语义。然而，当任务是逐字复制文本时，纯Transformer仍保持优势，因为模型须在不进行解释的情况下精确再现词元序列。

两个被分析的模型均属于AI2开发的开放OLMo 3系列，该系列旨在成为闭源LLM的透明替代方案。词元级别的研究帮助团队在未来版本中优化SSM与Transformer层的比例——设计从随机混合转变为经验驱动。

常见问题

什么是SSM，它在混合模型中有何作用？

SSM（状态空间模型）是Transformer注意力机制的替代方案，以线性复杂度顺序处理文本。在混合模型中，它与Transformer层结合使用，以融合两种方法的优势。

混合架构在哪些任务上无法超越纯Transformer？

纯Transformer在逐字复制文本方面仍占优势，此类任务要求模型精确再现原始词元序列，而无需解释语义含义。