Sentence Transformers v5.4 dodaje podršku za multimodalne embedding i reranker modele

HuggingFaceova biblioteka Sentence Transformers dobila je verziju 5.4 koja uvodi multimodalne embedding i reranker modele. Korisnici sad mogu mapirati tekst, slike, audio i video u zajednički embedding prostor i raditi cross-modal sličnost — unifikacija pretrage preko različitih tipova sadržaja.

HuggingFace je 9. travnja objavio Sentence Transformers v5.4, verziju koja u jednu od najpopularnijih NLP biblioteka donosi punu podršku za multimodalne modele — embedding i reranker modele koji rade s tekstom, slikama, zvukom i videom kroz isti API.

Što novo donosi

Glavni pomak je sposobnost mapiranja različitih modaliteta u zajednički embedding prostor, što omogućuje cross-modal similarity — usporedbu npr. teksta i slike kao da su isti tip podatka. Korisnici mogu pretraživati slike koristeći tekstualne upite, ili pronaći video segmente relevantne za neki zvučni isječak, sve preko jednog API poziva.

Među podržanim modelima su Qwen3-VL Embedding (2B i 8B verzije, podržava tekst/sliku/video), NVIDIA llama-nemotron-embed-vl (1.7B), BAAI BGE-VL (od 100M do 8B parametara), te novi multimodalni reranker-i poput jina-reranker-m0 i Qwen3-VL-Reranker-2B.

Kako se koristi

Instalacija je opcionalna prema potrebnom modalitetu: pip install sentence-transformers[image] za slike, [audio] za zvuk, [video] za video. Primjer cross-modal pretrage je vrlo jednostavan — encode-ash slike i tekstualne upite kroz model.encode(), pa pozoveš model.similarity(). Backward kompatibilnost je očuvana: postojeći tekst-only kod radi nepromijenjeno.

Za hardware: 2B varijante zahtijevaju ~8 GB VRAM-a, 8B varijante ~20 GB. CPU inferencija je moguća ali izrazito spora — GPU je preporučen.

Zašto je bitno

Sentence Transformers je kičma bezbrojnih RAG (Retrieval Augmented Generation) sustava i semantičkih pretraga u produkciji. Donošenje multimodalne podrške u istu biblioteku znači da developeri ne moraju mijenjati arhitekturu kad žele dodati pretragu po slikama ili videu — samo zamijene model. To je vjerojatno najtihiji ali najpraktičniji update koji će izvanrednu većinu RAG sustava preokrenuti u multimodalne tijekom sljedećih mjeseci.

Sentence Transformers v5.4 dodaje podršku za multimodalne embedding i reranker modele

Što novo donosi

Kako se koristi

Zašto je bitno

Izvori

Povezane vijesti