Sentence Transformers v5.4 unterstützt nun multimodale Embedding- und Reranker-Modelle
Die HuggingFace-Bibliothek Sentence Transformers hat Version 5.4 erhalten, die multimodale Embedding- und Reranker-Modelle einführt. Nutzer können nun Text, Bilder, Audio und Video in einen gemeinsamen Embedding-Raum abbilden und Cross-Modal-Ähnlichkeit berechnen — eine Vereinheitlichung der Suche über verschiedene Inhaltstypen hinweg.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
HuggingFace hat am 9. April Sentence Transformers v5.4 veröffentlicht, eine Version, die eine der beliebtesten NLP-Bibliotheken um volle Unterstützung für multimodale Modelle erweitert — Embedding- und Reranker-Modelle, die über dieselbe API mit Text, Bildern, Audio und Video arbeiten.
Was neu ist
Der wichtigste Fortschritt ist die Fähigkeit, unterschiedliche Modalitäten in einen gemeinsamen Embedding-Raum abzubilden, was Cross-Modal-Ähnlichkeit ermöglicht — also den Vergleich von etwa Text und Bild, als wären sie derselbe Datentyp. Nutzer können Bilder mit Textanfragen durchsuchen oder Videosequenzen finden, die zu einem Audioausschnitt passen — alles über einen einzigen API-Aufruf.
Zu den unterstützten Modellen gehören Qwen3-VL Embedding (2B- und 8B-Versionen, unterstützt Text/Bild/Video), NVIDIA llama-nemotron-embed-vl (1,7B), BAAI BGE-VL (von 100M bis 8B Parametern) sowie neue multimodale Reranker wie jina-reranker-m0 und Qwen3-VL-Reranker-2B.
Nutzung
Die Installation erfolgt optional je nach benötigter Modalität: pip install sentence-transformers[image] für Bilder, [audio] für Audio, [video] für Video. Ein Beispiel für Cross-Modal-Suche ist sehr einfach — Bilder und Textanfragen werden über model.encode() kodiert, anschließend ruft man model.similarity() auf. Die Abwärtskompatibilität bleibt gewahrt: Bestehender reiner Textcode funktioniert unverändert weiter.
Zur Hardware: Die 2B-Varianten benötigen rund 8 GB VRAM, die 8B-Varianten rund 20 GB. CPU-Inferenz ist möglich, aber extrem langsam — eine GPU wird empfohlen.
Warum das wichtig ist
Sentence Transformers ist das Rückgrat unzähliger RAG-Systeme (Retrieval Augmented Generation) und semantischer Suchanwendungen im produktiven Einsatz. Die Aufnahme multimodaler Unterstützung in dieselbe Bibliothek bedeutet, dass Entwickler ihre Architektur nicht ändern müssen, wenn sie Bild- oder Videosuche hinzufügen wollen — sie tauschen einfach das Modell aus. Dies ist wahrscheinlich das leiseste, aber praktischste Update, das die überwältigende Mehrheit der RAG-Systeme in den kommenden Monaten in multimodale Systeme verwandeln wird.
Verwandte Nachrichten
arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung
arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs