基础

多模态模型

一种能在单个模型内处理和/或生成多种模态(文本、图像、音频、视频)的 AI 系统,而非局限于单一数据类型;它将不同模态映射到统一表示空间,由同一网络联合处理。

**多模态模型(multimodal model)**是一种能在单一架构内处理和/或生成多种数据类型(即模态)的 AI 系统,涵盖文本、图像、音频与视频。与仅限单一模态的模型不同,多模态模型可以描述照片内容、回答有关图表的问题,或根据文字描述生成图像。

在技术上,每种模态都会被转换到共享的表示空间(参见嵌入),使同一网络得以联合处理。现代「原生多模态」模型从训练之初便采用混合数据,通常构建于 Transformer 架构之上,而图像与视频的生成则常依赖扩散模型

2025 至 2026 年间,多模态已成为主流基础模型的标准能力——Gemini、GPT-4o、Claude 等均可接收文本、图像、文档、音频与视频。这是迈向能够「看」与「听」的助手的关键一步,也为能够处理真实多样输入的智能体系统奠定了基础。

来源

另见