ParaRNN是一种并行训练非线性递归神经网络的方法，能够显著加速大型模型的训练过程。

ParaRNN快了多少倍？

Apple报告称，相比顺序训练非线性RNN的方式，ParaRNN实现了665倍的加速。

Apple在ICLR 2026上共有多少篇论文被录用？

Apple在ICLR 2026上共发表了五篇论文，涵盖RNN、状态空间模型、多模态模型、3D重建和蛋白质结构预测等领域。

Apple在本周于里约热内卢举办的ICLR 2026大会上发表了五篇机器学习研究论文。其中最受瞩目的是ParaRNN——这一方法重新审视了Transformer时代递归神经网络的地位。

递归神经网络（RNN）多年来一直处于次要地位，因为它们无法进行并行训练——每个时间步都依赖于前一步的结果。ParaRNN解决了这一问题，甚至适用于非线性RNN，而非线性RNN表达能力更强，但并行化难度更大。

Apple报告实现了相比顺序方式665倍的加速。这一数字意义重大，因为它使RNN能够扩展到数十亿参数规模——在这一级别上，RNN可以与Transformer在实际应用中形成竞争，同时保留传统RNN线性内存复杂度的优势。

对于需要在iPhone等资源受限设备上运行模型的Apple而言，这具有重要的战略意义。具有线性内存的RNN可以处理较长的上下文，而不会出现困扰Transformer的二次方增长问题。

除ParaRNN外，Apple还发表了另外四篇论文。带工具使用的状态空间模型展示了SSM架构如何与工具结合以更好地泛化到不同上下文长度——对于模型需要处理超出训练长度文本的任务尤为重要。

MANZANO是一个统一的多模态模型，通过单一架构处理文本和图像，无需为不同模态设置独立的编码层。

第三篇论文描述了在不到一秒时间内从单张照片合成3D场景——这对AR应用和3D内容生成具有重要意义。第四篇是SimpleFold，一个无需AlphaFold所使用的专门架构即可预测蛋白质结构的模型。

在顶级ML会议上有五篇论文被录用，表明Apple持续投资于基础研究，而不仅仅是对现有模型的产品化应用。对效率的关注——并行化、线性内存、快速3D合成——与Apple在消费者硬件而非仅依赖云端运行模型的需求保持一致。

尽管Apple尚未宣布这些研究成果的具体产品集成计划，但ParaRNN和带工具使用的SSM等架构是未来Apple Intelligence系统的合理候选。