Sentence Transformers v5.4 dodaje podršku za multimodalne embedding i reranker modele
Zašto je bitno
HuggingFaceova biblioteka Sentence Transformers dobila je verziju 5.4 koja uvodi multimodalne embedding i reranker modele. Korisnici sad mogu mapirati tekst, slike, audio i video u zajednički embedding prostor i raditi cross-modal sličnost — unifikacija pretrage preko različitih tipova sadržaja.
HuggingFace je 9. travnja objavio Sentence Transformers v5.4, verziju koja u jednu od najpopularnijih NLP biblioteka donosi punu podršku za multimodalne modele — embedding i reranker modele koji rade s tekstom, slikama, zvukom i videom kroz isti API.
Što novo donosi
Glavni pomak je sposobnost mapiranja različitih modaliteta u zajednički embedding prostor, što omogućuje cross-modal similarity — usporedbu npr. teksta i slike kao da su isti tip podatka. Korisnici mogu pretraživati slike koristeći tekstualne upite, ili pronaći video segmente relevantne za neki zvučni isječak, sve preko jednog API poziva.
Među podržanim modelima su Qwen3-VL Embedding (2B i 8B verzije, podržava tekst/sliku/video), NVIDIA llama-nemotron-embed-vl (1.7B), BAAI BGE-VL (od 100M do 8B parametara), te novi multimodalni reranker-i poput jina-reranker-m0 i Qwen3-VL-Reranker-2B.
Kako se koristi
Instalacija je opcionalna prema potrebnom modalitetu: pip install sentence-transformers[image] za slike, [audio] za zvuk, [video] za video. Primjer cross-modal pretrage je vrlo jednostavan — encode-ash slike i tekstualne upite kroz model.encode(), pa pozoveš model.similarity(). Backward kompatibilnost je očuvana: postojeći tekst-only kod radi nepromijenjeno.
Za hardware: 2B varijante zahtijevaju ~8 GB VRAM-a, 8B varijante ~20 GB. CPU inferencija je moguća ali izrazito spora — GPU je preporučen.
Zašto je bitno
Sentence Transformers je kičma bezbrojnih RAG (Retrieval Augmented Generation) sustava i semantičkih pretraga u produkciji. Donošenje multimodalne podrške u istu biblioteku znači da developeri ne moraju mijenjati arhitekturu kad žele dodati pretragu po slikama ili videu — samo zamijene model. To je vjerojatno najtihiji ali najpraktičniji update koji će izvanrednu većinu RAG sustava preokrenuti u multimodalne tijekom sljedećih mjeseci.
Povezane vijesti
ArXiv: Process Reward Agents — real-time feedback poboljšava AI zaključivanje u medicini bez retraininga
ArXiv PRA: 4B model postiže 80.8% na medicinskom benchmarku — novi SOTA za malu skalu
ArXiv SPPO: PPO na razini sekvence rješava problem kreditne dodjele u dugim lancima razmišljanja