Sentence Transformers v5.4 unterstützt nun multimodale Embedding- und Reranker-Modelle

Die HuggingFace-Bibliothek Sentence Transformers hat Version 5.4 erhalten, die multimodale Embedding- und Reranker-Modelle einführt. Nutzer können nun Text, Bilder, Audio und Video in einen gemeinsamen Embedding-Raum abbilden und Cross-Modal-Ähnlichkeit berechnen — eine Vereinheitlichung der Suche über verschiedene Inhaltstypen hinweg.

HuggingFace hat am 9. April Sentence Transformers v5.4 veröffentlicht, eine Version, die eine der beliebtesten NLP-Bibliotheken um volle Unterstützung für multimodale Modelle erweitert — Embedding- und Reranker-Modelle, die über dieselbe API mit Text, Bildern, Audio und Video arbeiten.

Was neu ist

Der wichtigste Fortschritt ist die Fähigkeit, unterschiedliche Modalitäten in einen gemeinsamen Embedding-Raum abzubilden, was Cross-Modal-Ähnlichkeit ermöglicht — also den Vergleich von etwa Text und Bild, als wären sie derselbe Datentyp. Nutzer können Bilder mit Textanfragen durchsuchen oder Videosequenzen finden, die zu einem Audioausschnitt passen — alles über einen einzigen API-Aufruf.

Zu den unterstützten Modellen gehören Qwen3-VL Embedding (2B- und 8B-Versionen, unterstützt Text/Bild/Video), NVIDIA llama-nemotron-embed-vl (1,7B), BAAI BGE-VL (von 100M bis 8B Parametern) sowie neue multimodale Reranker wie jina-reranker-m0 und Qwen3-VL-Reranker-2B.

Nutzung

Die Installation erfolgt optional je nach benötigter Modalität: pip install sentence-transformers[image] für Bilder, [audio] für Audio, [video] für Video. Ein Beispiel für Cross-Modal-Suche ist sehr einfach — Bilder und Textanfragen werden über model.encode() kodiert, anschließend ruft man model.similarity() auf. Die Abwärtskompatibilität bleibt gewahrt: Bestehender reiner Textcode funktioniert unverändert weiter.

Zur Hardware: Die 2B-Varianten benötigen rund 8 GB VRAM, die 8B-Varianten rund 20 GB. CPU-Inferenz ist möglich, aber extrem langsam — eine GPU wird empfohlen.

Warum das wichtig ist

Sentence Transformers ist das Rückgrat unzähliger RAG-Systeme (Retrieval Augmented Generation) und semantischer Suchanwendungen im produktiven Einsatz. Die Aufnahme multimodaler Unterstützung in dieselbe Bibliothek bedeutet, dass Entwickler ihre Architektur nicht ändern müssen, wenn sie Bild- oder Videosuche hinzufügen wollen — sie tauschen einfach das Modell aus. Dies ist wahrscheinlich das leiseste, aber praktischste Update, das die überwältigende Mehrheit der RAG-Systeme in den kommenden Monaten in multimodale Systeme verwandeln wird.

Sentence Transformers v5.4 unterstützt nun multimodale Embedding- und Reranker-Modelle

Was neu ist

Nutzung

Warum das wichtig ist

Quellen

Verwandte Nachrichten