Sentence Transformers v5.4, 멀티모달 임베딩 및 리랭커 모델 지원 추가
왜 중요한가
HuggingFace의 Sentence Transformers 라이브러리가 버전 5.4를 받아 멀티모달 임베딩 및 리랭커 모델을 도입했습니다. 사용자는 이제 텍스트, 이미지, 오디오, 비디오를 공통 임베딩 공간에 매핑하고 크로스 모달 유사성을 수행할 수 있습니다 — 서로 다른 유형의 콘텐츠 검색 통합입니다.
HuggingFace는 4월 9일 가장 인기 있는 NLP 라이브러리 중 하나에 멀티모달 모델 — 동일한 API를 통해 텍스트, 이미지, 사운드, 비디오를 다루는 임베딩 및 리랭커 모델 — 에 대한 완전한 지원을 제공하는 Sentence Transformers v5.4를 공개했습니다.
새로운 기능
핵심 진전은 서로 다른 모달리티를 공통 임베딩 공간으로 매핑하는 능력이며, 이로써 크로스 모달 유사성 — 예를 들어 텍스트와 이미지를 동일한 유형의 데이터처럼 비교하는 것 — 이 가능해집니다. 사용자는 텍스트 쿼리를 사용하여 이미지를 검색하거나, 어떤 오디오 클립과 관련된 비디오 세그먼트를 찾을 수 있으며, 이 모두를 단일 API 호출로 수행할 수 있습니다.
지원되는 모델에는 Qwen3-VL Embedding(2B 및 8B 버전, 텍스트/이미지/비디오 지원), NVIDIA llama-nemotron-embed-vl(1.7B), BAAI BGE-VL(100M부터 8B 파라미터까지), 그리고 jina-reranker-m0 및 Qwen3-VL-Reranker-2B 같은 새로운 멀티모달 리랭커가 포함됩니다.
사용 방법
설치는 필요한 모달리티에 따라 선택적입니다. 이미지용은 pip install sentence-transformers[image], 오디오용은 [audio], 비디오용은 [video]입니다. 크로스 모달 검색 예제는 매우 간단합니다 — model.encode()로 이미지와 텍스트 쿼리를 인코딩한 뒤 model.similarity()를 호출하면 됩니다. 하위 호환성이 유지됩니다. 기존의 텍스트 전용 코드는 변경 없이 동작합니다.
하드웨어 측면에서 2B 변형은 약 8GB VRAM이 필요하고, 8B 변형은 약 20GB가 필요합니다. CPU 추론도 가능하지만 매우 느리므로 GPU가 권장됩니다.
왜 중요한가
Sentence Transformers는 프로덕션 환경의 수많은 RAG(Retrieval Augmented Generation) 시스템과 시맨틱 검색의 중추입니다. 멀티모달 지원을 같은 라이브러리로 가져온다는 것은 개발자가 이미지나 비디오 검색을 추가하고 싶을 때 아키텍처를 변경할 필요 없이 모델만 교체하면 된다는 것을 의미합니다. 이는 아마도 가장 조용하지만 가장 실용적인 업데이트로, 앞으로 수개월 동안 대부분의 RAG 시스템을 멀티모달로 전환시킬 것입니다.