Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru
Google je objavio opću dostupnost gemini-embedding-2 modela koji podržava tekst, slike, video, audio i PDF ulaze mapirane u jedinstveni embedding prostor. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan putem Gemini API-ja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Google je objavio opću dostupnost modela gemini-embedding-2, prvog multimodalnog embedding modela koji u jedinstveni vektorski prostor mapira čak pet modaliteta: tekst, slike, video, audio i PDF dokumente. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan kroz Gemini API.
Objava je označila bitnu prekretnicu u embedding modelima jer dosadašnji rad uglavnom pokriva tekst ili tekst-slika parove. Rijetko koji model je konzistentno pokrio audio i video, a PDF kao prvorazredni modalitet je gotovo nepoznato područje.
Što je embedding i zašto je važan?
Embedding je numerička reprezentacija ulaza u obliku vektora — niz brojeva koji opisuju značenje sadržaja. Embeddingi se koriste za semantičku pretragu, RAG (retrieval-augmented generation) sustave, klasifikaciju, detekciju duplikata i preporuke.
Ključna ideja je da su slični ulazi blizu jedan drugome u vektorskom prostoru. Do sada su to uglavnom bili tekst naprema tekstu ili slika naprema slici. Multimodalni embedding u jedinstvenom prostoru znači da tekstualni upit “mačka skače” može pronaći fotografiju mačke, video isječak mačke i audio zapis mijaukanja — sve bez posebne konverzije.
Koji su ulazi podržani?
Model podržava pet tipova ulaza:
- Tekst — klasični izvor za embeddinge, obično koristi za pretragu i RAG
- Slike — fotografije, screenshoti, grafike
- Video — kratki isječci ili duže snimke
- Audio — glas, glazba, zvučni događaji
- PDF — cijeli dokumenti s mješavinom teksta, slika i tablica
Činjenica da je PDF prvorazredni modalitet znači da korisnici ne moraju ručno izvlačiti tekst i slike iz dokumenata. Model to radi interno i producira jedinstveni vektor koji opisuje cijeli dokument.
Koja je praktična primjena?
Najočitija primjena je napredna semantička pretraga nad heterogenim sadržajem. Organizacija koja ima mix dokumenata, slika i snimaka sastanaka može indeksirati sve u isti vektorski indeks i pretraživati bilo koji medij bilo kojim upitom.
Za hrvatske developere i tvrtke koje grade RAG aplikacije, multimodalni embedding pojednostavljuje arhitekturu. Umjesto pipeline-a koji ekstrahira tekst iz PDF-a, prebacuje slike kroz zasebni model pa audio kroz treći, sve može proći kroz jedan API poziv. To smanjuje kompleksnost i vjerojatno troškove.
Treba spomenuti da GA release ne znači automatski da je model savršen za svaku primjenu — preciznost ovisi o konkretnim podacima i domenama. Preporuka je testirati model na vlastitom dataset-u prije nego što se migrira cijeli produkcijski pipeline.
Česta pitanja
- Što je gemini-embedding-2?
- To je Googleov multimodalni embedding model koji pretvara tekst, slike, video, audio i PDF u vektore u jedinstvenom prostoru.
- Što znači 'jedinstveni embedding prostor'?
- Znači da se različite vrste ulaza (tekst, slika, audio) mogu izravno uspoređivati jer sve završavaju kao vektori iste vrste.
- Od kada je model dostupan?
- Model je bio u preview-u od 10. ožujka 2026., a GA (opća dostupnost) objavljena je 22. travnja 2026. kroz Gemini API.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova