Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru
Zašto je bitno
Google je objavio opću dostupnost gemini-embedding-2 modela koji podržava tekst, slike, video, audio i PDF ulaze mapirane u jedinstveni embedding prostor. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan putem Gemini API-ja.
Google je objavio opću dostupnost modela gemini-embedding-2, prvog multimodalnog embedding modela koji u jedinstveni vektorski prostor mapira čak pet modaliteta: tekst, slike, video, audio i PDF dokumente. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan kroz Gemini API.
Objava je označila bitnu prekretnicu u embedding modelima jer dosadašnji rad uglavnom pokriva tekst ili tekst-slika parove. Rijetko koji model je konzistentno pokrio audio i video, a PDF kao prvorazredni modalitet je gotovo nepoznato područje.
Što je embedding i zašto je važan?
Embedding je numerička reprezentacija ulaza u obliku vektora — niz brojeva koji opisuju značenje sadržaja. Embeddingi se koriste za semantičku pretragu, RAG (retrieval-augmented generation) sustave, klasifikaciju, detekciju duplikata i preporuke.
Ključna ideja je da su slični ulazi blizu jedan drugome u vektorskom prostoru. Do sada su to uglavnom bili tekst naprema tekstu ili slika naprema slici. Multimodalni embedding u jedinstvenom prostoru znači da tekstualni upit “mačka skače” može pronaći fotografiju mačke, video isječak mačke i audio zapis mijaukanja — sve bez posebne konverzije.
Koji su ulazi podržani?
Model podržava pet tipova ulaza:
- Tekst — klasični izvor za embeddinge, obično koristi za pretragu i RAG
- Slike — fotografije, screenshoti, grafike
- Video — kratki isječci ili duže snimke
- Audio — glas, glazba, zvučni događaji
- PDF — cijeli dokumenti s mješavinom teksta, slika i tablica
Činjenica da je PDF prvorazredni modalitet znači da korisnici ne moraju ručno izvlačiti tekst i slike iz dokumenata. Model to radi interno i producira jedinstveni vektor koji opisuje cijeli dokument.
Koja je praktična primjena?
Najočitija primjena je napredna semantička pretraga nad heterogenim sadržajem. Organizacija koja ima mix dokumenata, slika i snimaka sastanaka može indeksirati sve u isti vektorski indeks i pretraživati bilo koji medij bilo kojim upitom.
Za hrvatske developere i tvrtke koje grade RAG aplikacije, multimodalni embedding pojednostavljuje arhitekturu. Umjesto pipeline-a koji ekstrahira tekst iz PDF-a, prebacuje slike kroz zasebni model pa audio kroz treći, sve može proći kroz jedan API poziv. To smanjuje kompleksnost i vjerojatno troškove.
Treba spomenuti da GA release ne znači automatski da je model savršen za svaku primjenu — preciznost ovisi o konkretnim podacima i domenama. Preporuka je testirati model na vlastitom dataset-u prije nego što se migrira cijeli produkcijski pipeline.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate
Apple predstavio MANZANO — unificirani multimodalni model koji balansira razumijevanje i generiranje slika
Microsoft AutoAdapt: automatska prilagodba LLM-ova za specijalizirane domene u 30 minuta i 4 dolara