Sentence Transformers v5.4 unterstützt nun multimodale Embedding- und Reranker-Modelle
Warum es wichtig ist
Die HuggingFace-Bibliothek Sentence Transformers hat Version 5.4 erhalten, die multimodale Embedding- und Reranker-Modelle einführt. Nutzer können nun Text, Bilder, Audio und Video in einen gemeinsamen Embedding-Raum abbilden und Cross-Modal-Ähnlichkeit berechnen — eine Vereinheitlichung der Suche über verschiedene Inhaltstypen hinweg.
HuggingFace hat am 9. April Sentence Transformers v5.4 veröffentlicht, eine Version, die eine der beliebtesten NLP-Bibliotheken um volle Unterstützung für multimodale Modelle erweitert — Embedding- und Reranker-Modelle, die über dieselbe API mit Text, Bildern, Audio und Video arbeiten.
Was neu ist
Der wichtigste Fortschritt ist die Fähigkeit, unterschiedliche Modalitäten in einen gemeinsamen Embedding-Raum abzubilden, was Cross-Modal-Ähnlichkeit ermöglicht — also den Vergleich von etwa Text und Bild, als wären sie derselbe Datentyp. Nutzer können Bilder mit Textanfragen durchsuchen oder Videosequenzen finden, die zu einem Audioausschnitt passen — alles über einen einzigen API-Aufruf.
Zu den unterstützten Modellen gehören Qwen3-VL Embedding (2B- und 8B-Versionen, unterstützt Text/Bild/Video), NVIDIA llama-nemotron-embed-vl (1,7B), BAAI BGE-VL (von 100M bis 8B Parametern) sowie neue multimodale Reranker wie jina-reranker-m0 und Qwen3-VL-Reranker-2B.
Nutzung
Die Installation erfolgt optional je nach benötigter Modalität: pip install sentence-transformers[image] für Bilder, [audio] für Audio, [video] für Video. Ein Beispiel für Cross-Modal-Suche ist sehr einfach — Bilder und Textanfragen werden über model.encode() kodiert, anschließend ruft man model.similarity() auf. Die Abwärtskompatibilität bleibt gewahrt: Bestehender reiner Textcode funktioniert unverändert weiter.
Zur Hardware: Die 2B-Varianten benötigen rund 8 GB VRAM, die 8B-Varianten rund 20 GB. CPU-Inferenz ist möglich, aber extrem langsam — eine GPU wird empfohlen.
Warum das wichtig ist
Sentence Transformers ist das Rückgrat unzähliger RAG-Systeme (Retrieval Augmented Generation) und semantischer Suchanwendungen im produktiven Einsatz. Die Aufnahme multimodaler Unterstützung in dieselbe Bibliothek bedeutet, dass Entwickler ihre Architektur nicht ändern müssen, wenn sie Bild- oder Videosuche hinzufügen wollen — sie tauschen einfach das Modell aus. Dies ist wahrscheinlich das leiseste, aber praktischste Update, das die überwältigende Mehrheit der RAG-Systeme in den kommenden Monaten in multimodale Systeme verwandeln wird.
Verwandte Nachrichten
ArXiv: Process Reward Agents — Echtzeit-Feedback verbessert KI-Schlussfolgerungen in der Medizin ohne Retraining
ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala
ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten