Sentence Transformers v5.4がマルチモーダル埋め込みおよびリランカーモデルのサポートを追加
なぜ重要か
HuggingFaceのSentence TransformersライブラリはバージョンM5.4を取得し、マルチモーダル埋め込みおよびリランカーモデルを導入しました。ユーザーはテキスト、画像、オーディオ、ビデオを共通の埋め込み空間にマッピングし、クロスモーダル類似性を計算できるようになりました — 異なるタイプのコンテンツ検索の統合です。
HuggingFaceは4月9日、最も人気のあるNLPライブラリの1つにマルチモーダルモデルの完全サポート — 同じAPIを通じてテキスト、画像、サウンド、ビデオを扱う埋め込みおよびリランカーモデル — をもたらすバージョンSentence Transformers v5.4を公開しました。
新機能
主要な進歩は、さまざまなモダリティを共通の埋め込み空間にマッピングする能力で、これによりクロスモーダル類似性 — たとえばテキストと画像を同じタイプのデータであるかのように比較する機能 — が可能になります。ユーザーはテキストクエリを使って画像を検索したり、あるオーディオクリップに関連するビデオセグメントを見つけたりすることが、すべて単一のAPIコールで可能です。
サポートされているモデルには、Qwen3-VL Embedding(2Bおよび8Bバージョン、テキスト/画像/ビデオをサポート)、NVIDIA llama-nemotron-embed-vl(1.7B)、BAAI BGE-VL(100Mから8Bパラメータまで)、そしてjina-reranker-m0やQwen3-VL-Reranker-2Bのような新しいマルチモーダルリランカーが含まれます。
使い方
インストールは必要なモダリティに応じてオプショナルです:画像用はpip install sentence-transformers[image]、オーディオ用は[audio]、ビデオ用は[video]です。クロスモーダル検索の例は非常にシンプルです — model.encode()を通じて画像とテキストクエリをエンコードし、model.similarity()を呼び出すだけです。後方互換性は保たれています — 既存のテキストのみのコードは変更なしで動作します。
ハードウェアについては、2Bバリアントは約8 GBのVRAMを必要とし、8Bバリアントは約20 GBを必要とします。CPU推論は可能ですが非常に遅いため、GPUが推奨されます。
なぜ重要か
Sentence Transformersは、本番環境における無数のRAG(Retrieval Augmented Generation)システムやセマンティック検索のバックボーンです。マルチモーダルサポートを同じライブラリにもたらすことは、開発者が画像やビデオ検索を追加したいときにアーキテクチャを変更する必要がなく、モデルを置き換えるだけでよいことを意味します。これはおそらく最も静かでありながら最も実用的なアップデートで、今後数か月間に大多数のRAGシステムをマルチモーダルに変貌させるでしょう。