Embedding (vektorska reprezentacija)

Embedding je gusti vektor brojeva s pomičnim zarezom (najčešće 256 do 4096 dimenzija) koji predstavlja značenje riječi, rečenice, paragrafa, slike ili bilo kojeg drugog ulaza. Ključno svojstvo: stavke sa sličnim značenjem nalaze se blizu jedna drugoj u tom prostoru, dok su nepovezane stavke daleko. Udaljenost se obično mjeri kosinusnom sličnošću ili euklidskom udaljenosti.

Embedinge proizvode posebno trenirani modeli — primjerice OpenAI text-embedding-3-large, Cohere Embed v3, ili otvoreni modeli poput bge-m3 i nomic-embed. Mnogi veliki jezični modeli interno koriste embedinge kao prvi sloj nakon tokenizacije — svaki token se preslikava u svoj naučeni vektor prije ulaska u transformer slojeve.

Glavne primjene:

Semantičko pretraživanje: umjesto traženja točne riječi, sustav pronalazi dokumente sa sličnim značenjem
RAG sustavi: dohvat relevantnih dokumenata iz vektorske baze prije generiranja odgovora
Klasifikacija i klasteriranje: grupiranje sličnih sadržaja bez ručnog označavanja
Preporuke: “korisnici koji su gledali X možda žele Y”

Embedinzi su temelj svih modernih sustava semantičke pretrage i RAG arhitektura — bez njih AI asistenti ne bi mogli učinkovito pristupiti vlastitoj dokumentaciji ili znanju izvan konteksta razgovora.

Izvori

Vidi također