Sentence Transformers v5.4新增对多模态嵌入与重排序模型的支持
为什么重要
HuggingFace的Sentence Transformers库发布了5.4版本,引入了多模态嵌入和重排序模型。用户现在可以将文本、图像、音频和视频映射到统一的嵌入空间,并进行跨模态相似度计算——实现不同类型内容搜索的统一。
HuggingFace于4月9日发布了Sentence Transformers v5.4,这一版本为最流行的NLP库之一带来了多模态模型的完整支持——能够通过同一API处理文本、图像、声音和视频的嵌入和重排序模型。
新功能
主要突破是将不同模态映射到统一嵌入空间的能力,实现了跨模态相似度——例如将文本和图像视为同一类型数据进行比较。用户可以使用文本查询搜索图像,或找到与某段音频片段相关的视频片段,所有这些都可以通过单个API调用完成。
支持的模型包括Qwen3-VL Embedding(2B和8B版本,支持文本/图像/视频)、NVIDIA llama-nemotron-embed-vl(1.7B)、BAAI BGE-VL(从100M到8B参数),以及新的多模态重排序器如jina-reranker-m0和Qwen3-VL-Reranker-2B。
如何使用
安装是按所需模态可选的:pip install sentence-transformers[image]用于图像,[audio]用于音频,[video]用于视频。跨模态搜索的示例非常简单——通过model.encode()对图像和文本查询进行编码,然后调用model.similarity()。向后兼容性得到保留:现有的纯文本代码无需修改即可运行。
硬件要求:2B版本需要约8 GB VRAM,8B版本约20 GB。CPU推理是可能的但非常缓慢——建议使用GPU。
为什么这很重要
Sentence Transformers是生产环境中无数RAG(检索增强生成)系统和语义搜索的骨干。将多模态支持引入同一个库意味着开发者在想要添加图像或视频搜索时无需更改架构——只需替换模型。这可能是最安静但最实用的更新,将在接下来几个月中让绝大多数RAG系统转型为多模态系统。