🤖 24 AI
🟡 🤖 Modeli četvrtak, 23. travnja 2026. · 2 min čitanja

Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru

Editorial illustration: AI model — modeli

Zašto je bitno

Google je objavio opću dostupnost gemini-embedding-2 modela koji podržava tekst, slike, video, audio i PDF ulaze mapirane u jedinstveni embedding prostor. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan putem Gemini API-ja.

Google je objavio opću dostupnost modela gemini-embedding-2, prvog multimodalnog embedding modela koji u jedinstveni vektorski prostor mapira čak pet modaliteta: tekst, slike, video, audio i PDF dokumente. Model je bio u preview-u od 10. ožujka 2026., a sada je svima dostupan kroz Gemini API.

Objava je označila bitnu prekretnicu u embedding modelima jer dosadašnji rad uglavnom pokriva tekst ili tekst-slika parove. Rijetko koji model je konzistentno pokrio audio i video, a PDF kao prvorazredni modalitet je gotovo nepoznato područje.

Što je embedding i zašto je važan?

Embedding je numerička reprezentacija ulaza u obliku vektora — niz brojeva koji opisuju značenje sadržaja. Embeddingi se koriste za semantičku pretragu, RAG (retrieval-augmented generation) sustave, klasifikaciju, detekciju duplikata i preporuke.

Ključna ideja je da su slični ulazi blizu jedan drugome u vektorskom prostoru. Do sada su to uglavnom bili tekst naprema tekstu ili slika naprema slici. Multimodalni embedding u jedinstvenom prostoru znači da tekstualni upit “mačka skače” može pronaći fotografiju mačke, video isječak mačke i audio zapis mijaukanja — sve bez posebne konverzije.

Koji su ulazi podržani?

Model podržava pet tipova ulaza:

  • Tekst — klasični izvor za embeddinge, obično koristi za pretragu i RAG
  • Slike — fotografije, screenshoti, grafike
  • Video — kratki isječci ili duže snimke
  • Audio — glas, glazba, zvučni događaji
  • PDF — cijeli dokumenti s mješavinom teksta, slika i tablica

Činjenica da je PDF prvorazredni modalitet znači da korisnici ne moraju ručno izvlačiti tekst i slike iz dokumenata. Model to radi interno i producira jedinstveni vektor koji opisuje cijeli dokument.

Koja je praktična primjena?

Najočitija primjena je napredna semantička pretraga nad heterogenim sadržajem. Organizacija koja ima mix dokumenata, slika i snimaka sastanaka može indeksirati sve u isti vektorski indeks i pretraživati bilo koji medij bilo kojim upitom.

Za hrvatske developere i tvrtke koje grade RAG aplikacije, multimodalni embedding pojednostavljuje arhitekturu. Umjesto pipeline-a koji ekstrahira tekst iz PDF-a, prebacuje slike kroz zasebni model pa audio kroz treći, sve može proći kroz jedan API poziv. To smanjuje kompleksnost i vjerojatno troškove.

Treba spomenuti da GA release ne znači automatski da je model savršen za svaku primjenu — preciznost ovisi o konkretnim podacima i domenama. Preporuka je testirati model na vlastitom dataset-u prije nego što se migrira cijeli produkcijski pipeline.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.