视觉语言模型

在图像与文本上联合训练的 AI 模型，能「看懂」图像并用自然语言推理，是 GPT-4o、Claude 与 Gemini 视觉能力的基础。

视觉语言模型（vision-language model，VLM）是一种在单一模型内联合处理图像和文本的 AI 系统。与仅限文本的大语言模型不同，VLM 能够描述照片、回答关于图表或示意图的问题，并读取和理解图像中嵌入的文字。

在技术上，图像先经过视觉编码器转换为一系列向量表示（参见嵌入），再被插入与文本相同的词元序列中，由共享的 Transformer 主干统一处理。模型由此学习”所见”与”所述”之间的关联，输出通常是文本——一段描述、一个答案或一项分析。

在 2025 至 2026 年间，视觉语言能力已成为主流基础模型的标准配置：GPT-4o、Claude 和 Gemini 原生接受图像、文档和屏幕截图。这是迈向能够”看见”的助手的关键一步，也为能够处理用户界面、表格等视觉输入的智能体系统奠定了基础。

来源