Gemini Embedding 2 GA: 5 modaliteta u jednom prostoru

Google je objavio opću dostupnost gemini-embedding-2 modela koji podržava tekst, slike, video, audio i PDF ulaze mapirane u jedinstveni embedding prostor. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan putem Gemini API-ja.

Google je objavio opću dostupnost modela gemini-embedding-2, prvog multimodalnog embedding modela koji u jedinstveni vektorski prostor mapira čak pet modaliteta: tekst, slike, video, audio i PDF dokumente. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan kroz Gemini API.

Objava je označila bitnu prekretnicu u embedding modelima jer dosadašnji rad uglavnom pokriva tekst ili tekst-slika parove. Rijetko koji model je konzistentno pokrio audio i video, a PDF kao prvorazredni modalitet je gotovo nepoznato područje.

Što je embedding i zašto je važan?

Embedding je numerička reprezentacija ulaza u obliku vektora — niz brojeva koji opisuju značenje sadržaja. Embeddingi se koriste za semantičku pretragu, RAG (retrieval-augmented generation) sustave, klasifikaciju, detekciju duplikata i preporuke.

Ključna ideja je da su slični ulazi blizu jedan drugome u vektorskom prostoru. Do sada su to uglavnom bili tekst naprema tekstu ili slika naprema slici. Multimodalni embedding u jedinstvenom prostoru znači da tekstualni upit “mačka skače” može pronaći fotografiju mačke, video isječak mačke i audio zapis mijaukanja — sve bez posebne konverzije.

Koji su ulazi podržani?

Model podržava pet tipova ulaza:

Tekst — klasični izvor za embeddinge, obično koristi za pretragu i RAG
Slike — fotografije, screenshoti, grafike
Video — kratki isječci ili duže snimke
Audio — glas, glazba, zvučni događaji
PDF — cijeli dokumenti s mješavinom teksta, slika i tablica

Činjenica da je PDF prvorazredni modalitet znači da korisnici ne moraju ručno izvlačiti tekst i slike iz dokumenata. Model to radi interno i producira jedinstveni vektor koji opisuje cijeli dokument.

Koja je praktična primjena?

Najočitija primjena je napredna semantička pretraga nad heterogenim sadržajem. Organizacija koja ima mix dokumenata, slika i snimaka sastanaka može indeksirati sve u isti vektorski indeks i pretraživati bilo koji medij bilo kojim upitom.

Za hrvatske developere i tvrtke koje grade RAG aplikacije, multimodalni embedding pojednostavljuje arhitekturu. Umjesto pipeline-a koji ekstrahira tekst iz PDF-a, prebacuje slike kroz zasebni model pa audio kroz treći, sve može proći kroz jedan API poziv. To smanjuje kompleksnost i vjerojatno troškove.

Treba spomenuti da GA release ne znači automatski da je model savršen za svaku primjenu — preciznost ovisi o konkretnim podacima i domenama. Preporuka je testirati model na vlastitom dataset-u prije nego što se migrira cijeli produkcijski pipeline.

Česta pitanja

Što je gemini-embedding-2?

To je Googleov multimodalni embedding model koji pretvara tekst, slike, video, audio i PDF u vektore u jedinstvenom prostoru.

Što znači 'jedinstveni embedding prostor'?

Znači da se različite vrste ulaza (tekst, slika, audio) mogu izravno uspoređivati jer sve završavaju kao vektori iste vrste.

Od kada je model dostupan?

Model je bio u preview-u od 10. ožujka 2026., a GA (opća dostupnost) objavljena je 22. travnja 2026. kroz Gemini API.

Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru

Što je embedding i zašto je važan?

Koji su ulazi podržani?

Koja je praktična primjena?

Česta pitanja

Izvori

Povezane vijesti