多模态模型

一种能在单个模型内处理和/或生成多种模态（文本、图像、音频、视频）的 AI 系统，而非局限于单一数据类型；它将不同模态映射到统一表示空间，由同一网络联合处理。

**多模态模型（multimodal model）**是一种能在单一架构内处理和/或生成多种数据类型（即模态）的 AI 系统，涵盖文本、图像、音频与视频。与仅限单一模态的模型不同，多模态模型可以描述照片内容、回答有关图表的问题，或根据文字描述生成图像。

在技术上，每种模态都会被转换到共享的表示空间（参见嵌入），使同一网络得以联合处理。现代「原生多模态」模型从训练之初便采用混合数据，通常构建于 Transformer 架构之上，而图像与视频的生成则常依赖扩散模型。

2025 至 2026 年间，多模态已成为主流基础模型的标准能力——Gemini、GPT-4o、Claude 等均可接收文本、图像、文档、音频与视频。这是迈向能够「看」与「听」的助手的关键一步，也为能够处理真实多样输入的智能体系统奠定了基础。

来源