为何拥有文本和图像的统一嵌入空间很重要？

它允许文本查询找到相关的图像结果，反之亦然。没有共同空间，就需要对文本和图像分别进行搜索，然后通过启发式方法组合结果。

该指南涵盖哪些类型的模型？

嵌入模型产生用于搜索的输入向量表示，重排序模型对第一轮搜索的候选项进行排序以进行最终选择。

2026年4月16日，HuggingFace发布了使用流行的Sentence Transformers库对多模态嵌入和重排序模型进行微调的详细技术指南。文章面向构建生产级RAG系统、需要克服纯文本嵌入模型局限性的开发者。

经典嵌入模型——如BGE、Jina或E5——仅处理文本。当RAG系统需要处理文档、表格、图像、扫描件和图表的混合时，纯文本方法就会失败。OCR中的文本往往是碎片化的，图表转换为文本时会失去语义，而图像完全从索引中消失。

多模态嵌入模型通过将所有类型的输入数据放置在相同的向量空间来解决这个问题。文本查询可以直接找到语义相似的图像，图像查询可以找到相关文本——无需翻译步骤。

文章描述了两类主要模型：

嵌入模型 — 产生文档和查询的固定向量表示，然后通过近似最近邻算法进行搜索。适合在数百万文档中进行快速的第一阶段搜索。

重排序模型 — 从嵌入搜索中取top-K结果，通过精细的查询-候选配对进行排序。每对计算量更大，但对最终选择的准确性更高。

对于两种类型，指南展示了如何准备混合数据集（文本-图像对）、如何设置强化多模态语义的损失函数，以及如何通过为多模态性调整的标准MTEB类基准评估嵌入质量。

文章针对的典型用例是异构档案上的企业RAG——拥有PDF文档和扫描收据的法律事务所、拥有医学图像和病史的医疗机构、拥有技术图纸和描述的工程公司。在所有这些情况下，统一嵌入空间显著提高了相关文档的召回率。

HuggingFace通过此文章继续推动Sentence Transformers成为生产嵌入管道的标准工具的趋势，同时与Cohere Embed、OpenAI嵌入以及CLIP衍生品等专业多模态模型竞争。