MANZANO究竟统一了什么？

MANZANO将两种传统上相互独立的能力整合进一个模型：图像理解（即对视觉内容的描述与分析）和从文本或其他模态生成图像。

为什么混合分词器如此重要？

理解与生成需要不同的表示形式——连续嵌入为理解提供丰富的语义信号，而离散标记则支持稳定的自回归生成。混合分词器能从同一个编码器中同时提供这两种表示。

这对实际多模态应用有多大意义？

如果结果在更广泛的实践中得到验证，开发者便可用一个模型取代两个独立模型，从而降低服务成本、简化流水线，并开启对话式图像编辑等新的交互场景。

苹果MANZANO：ICLR 2026发布的统一多模态模型

多模态模型中的权衡问题

多年来，能够同时理解和生成图像的多模态模型一直面临一个根本性的权衡困境。针对图像理解优化的系统通常依赖连续嵌入，能够出色地描述内容，但难以生成新图像。相反，擅长图像生成的模型通常使用离散标记和自回归架构，在详细描述方面表现欠佳。将两者整合进一个模型，往往意味着至少在一个方面牺牲质量。

在苹果机器学习研究公布其日程的ICLR 2026大会上，苹果团队发布了MANZANO——一个旨在弥合这一差距的框架。根据公告，MANZANO提供了一种统一架构，能够在单一模型内同时平衡图像理解与生成，无需为每项任务配备独立系统。

混合视觉分词器与双适配器

MANZANO的核心技术创新是混合视觉分词器。分词器并不只提供理解模型所偏好的连续嵌入，或只提供生成模型所偏好的离散标记，而是从同一输入信号中同时生成两种表示。连续嵌入用作图像理解的丰富语义输入，而离散标记则在生成过程中用于自回归解码。

在这个共享编码器之上，MANZANO使用两个专用适配器，每种任务类型各对应一个。苹果在公告中将这种方法描述为”共享编码器、双适配器”，意味着模型共享大部分参数和表示，但顶部设有针对不同目标训练的专用头部。据作者称，与现有统一方法相比，这种方式减少了两项任务之间的性能权衡。

为何重要

如果这些结果在更广泛的实践和独立基准测试中得到验证，MANZANO有潜力改变多模态应用的构建方式。如今开发者通常需要结合两个独立模型——例如用Claude或GPT-4V进行理解，用Stable Diffusion或Flux进行生成——这意味着双倍的服务成本、更复杂的流水线和更繁琐的维护。像MANZANO这样的统一模型让同一系统能够跟踪对话、理解附加图像并生成新图像，无需在模型之间切换上下文。

这种架构尤其为对话式图像编辑等交互场景打开了大门——用户用自然语言描述所需修改，模型同时理解图像与指令并生成新版本。苹果尚未发布MANZANO的权重，也未宣布该功能何时会出现在产品中，但在ICLR上的发表表明了苹果研究工作的方向及其整合到未来版本Siri、Final Cut Pro或iOS生成工具中的潜力。对于更广泛的社区而言，MANZANO是一个有价值的参考点，表明统一理解与生成并不一定意味着质量损失。

苹果发布MANZANO——兼顾图像理解与生成的统一多模态模型

多模态模型中的权衡问题

混合视觉分词器与双适配器

为何重要

来源

相关新闻