模型

视觉语言模型

在图像与文本上联合训练的 AI 模型,能「看懂」图像并用自然语言推理,是 GPT-4o、Claude 与 Gemini 视觉能力的基础。

视觉语言模型vision-language model,VLM)是一种在单一模型内联合处理图像和文本的 AI 系统。与仅限文本的大语言模型不同,VLM 能够描述照片、回答关于图表或示意图的问题,并读取和理解图像中嵌入的文字。

在技术上,图像先经过视觉编码器转换为一系列向量表示(参见嵌入),再被插入与文本相同的词元序列中,由共享的 Transformer 主干统一处理。模型由此学习”所见”与”所述”之间的关联,输出通常是文本——一段描述、一个答案或一项分析。

在 2025 至 2026 年间,视觉语言能力已成为主流基础模型的标准配置:GPT-4o、Claude 和 Gemini 原生接受图像、文档和屏幕截图。这是迈向能够”看见”的助手的关键一步,也为能够处理用户界面、表格等视觉输入的智能体系统奠定了基础。

来源

另见