🤖 24 AI
🟢 🤖 模型 2026年4月23日星期四 · 2 分钟阅读

苹果发布MANZANO——兼顾图像理解与生成的统一多模态模型

编辑插图:AI模型——modeli

为什么重要

苹果研究团队在ICLR 2026大会上发布了MANZANO,这是一个统一的多模态框架,旨在解决图像理解能力与图像生成质量之间长期存在的权衡问题。该模型采用混合视觉分词器,为理解任务生成连续嵌入,为生成任务生成离散标记,并共享编码器与两个专用适配器,从而减少单一模型同时处理两项任务时通常产生的性能损失。

多模态模型中的权衡问题

多年来,能够同时理解和生成图像的多模态模型一直面临一个根本性的权衡困境。针对图像理解优化的系统通常依赖连续嵌入,能够出色地描述内容,但难以生成新图像。相反,擅长图像生成的模型通常使用离散标记和自回归架构,在详细描述方面表现欠佳。将两者整合进一个模型,往往意味着至少在一个方面牺牲质量。

在苹果机器学习研究公布其日程的ICLR 2026大会上,苹果团队发布了MANZANO——一个旨在弥合这一差距的框架。根据公告,MANZANO提供了一种统一架构,能够在单一模型内同时平衡图像理解与生成,无需为每项任务配备独立系统。

混合视觉分词器与双适配器

MANZANO的核心技术创新是混合视觉分词器。分词器并不只提供理解模型所偏好的连续嵌入,或只提供生成模型所偏好的离散标记,而是从同一输入信号中同时生成两种表示。连续嵌入用作图像理解的丰富语义输入,而离散标记则在生成过程中用于自回归解码。

在这个共享编码器之上,MANZANO使用两个专用适配器,每种任务类型各对应一个。苹果在公告中将这种方法描述为”共享编码器、双适配器”,意味着模型共享大部分参数和表示,但顶部设有针对不同目标训练的专用头部。据作者称,与现有统一方法相比,这种方式减少了两项任务之间的性能权衡。

为何重要

如果这些结果在更广泛的实践和独立基准测试中得到验证,MANZANO有潜力改变多模态应用的构建方式。如今开发者通常需要结合两个独立模型——例如用Claude或GPT-4V进行理解,用Stable Diffusion或Flux进行生成——这意味着双倍的服务成本、更复杂的流水线和更繁琐的维护。像MANZANO这样的统一模型让同一系统能够跟踪对话、理解附加图像并生成新图像,无需在模型之间切换上下文。

这种架构尤其为对话式图像编辑等交互场景打开了大门——用户用自然语言描述所需修改,模型同时理解图像与指令并生成新版本。苹果尚未发布MANZANO的权重,也未宣布该功能何时会出现在产品中,但在ICLR上的发表表明了苹果研究工作的方向及其整合到未来版本Siri、Final Cut Pro或iOS生成工具中的潜力。对于更广泛的社区而言,MANZANO是一个有价值的参考点,表明统一理解与生成并不一定意味着质量损失。

🤖

本文由人工智能基于一手来源生成。