🤖 24 AI
🟡 📦 开源 2026年4月23日星期四 · 2 分钟阅读

Apple在ICLR 2026发布ParaRNN:并行训练非线性RNN实现665倍加速

编辑插图:开源工具 — open-source

为什么重要

Apple在本周于里约热内卢举办的ICLR 2026大会上发布了五篇机器学习研究论文,其中最受瞩目的是ParaRNN——一种支持非线性递归神经网络并行训练的方法,相比顺序方式实现了665倍加速,使RNN可扩展至数十亿参数,与Transformer形成竞争。

Apple在本周于里约热内卢举办的ICLR 2026大会上发表了五篇机器学习研究论文。其中最受瞩目的是ParaRNN——这一方法重新审视了Transformer时代递归神经网络的地位。

ParaRNN为何重要?

递归神经网络(RNN)多年来一直处于次要地位,因为它们无法进行并行训练——每个时间步都依赖于前一步的结果。ParaRNN解决了这一问题,甚至适用于非线性RNN,而非线性RNN表达能力更强,但并行化难度更大。

Apple报告实现了相比顺序方式665倍的加速。这一数字意义重大,因为它使RNN能够扩展到数十亿参数规模——在这一级别上,RNN可以与Transformer在实际应用中形成竞争,同时保留传统RNN线性内存复杂度的优势。

对于需要在iPhone等资源受限设备上运行模型的Apple而言,这具有重要的战略意义。具有线性内存的RNN可以处理较长的上下文,而不会出现困扰Transformer的二次方增长问题。

Apple在ICLR 2026上还有哪些论文?

除ParaRNN外,Apple还发表了另外四篇论文。带工具使用的状态空间模型展示了SSM架构如何与工具结合以更好地泛化到不同上下文长度——对于模型需要处理超出训练长度文本的任务尤为重要。

MANZANO是一个统一的多模态模型,通过单一架构处理文本和图像,无需为不同模态设置独立的编码层。

第三篇论文描述了在不到一秒时间内从单张照片合成3D场景——这对AR应用和3D内容生成具有重要意义。第四篇是SimpleFold,一个无需AlphaFold所使用的专门架构即可预测蛋白质结构的模型。

这反映了Apple怎样的研究策略?

在顶级ML会议上有五篇论文被录用,表明Apple持续投资于基础研究,而不仅仅是对现有模型的产品化应用。对效率的关注——并行化、线性内存、快速3D合成——与Apple在消费者硬件而非仅依赖云端运行模型的需求保持一致。

尽管Apple尚未宣布这些研究成果的具体产品集成计划,但ParaRNN和带工具使用的SSM等架构是未来Apple Intelligence系统的合理候选。

🤖

本文由人工智能基于一手来源生成。