Temelji
Embedding (vektorska reprezentacija)
Vektorska reprezentacija riječi, rečenice ili dokumenta u višedimenzionalnom prostoru gdje semantički slična značenja imaju bliske vektore.
Embedding je gusti vektor brojeva s pomičnim zarezom (najčešće 256 do 4096 dimenzija) koji predstavlja značenje riječi, rečenice, paragrafa, slike ili bilo kojeg drugog ulaza. Ključno svojstvo: stavke sa sličnim značenjem nalaze se blizu jedna drugoj u tom prostoru, dok su nepovezane stavke daleko. Udaljenost se obično mjeri kosinusnom sličnošću ili euklidskom udaljenosti.
Embedinge proizvode posebno trenirani modeli — primjerice OpenAI text-embedding-3-large, Cohere Embed v3, ili otvoreni modeli poput bge-m3 i nomic-embed. Mnogi veliki jezični modeli interno koriste embedinge kao prvi sloj nakon tokenizacije — svaki token se preslikava u svoj naučeni vektor prije ulaska u transformer slojeve.
Glavne primjene:
- Semantičko pretraživanje: umjesto traženja točne riječi, sustav pronalazi dokumente sa sličnim značenjem
- RAG sustavi: dohvat relevantnih dokumenata iz vektorske baze prije generiranja odgovora
- Klasifikacija i klasteriranje: grupiranje sličnih sadržaja bez ručnog označavanja
- Preporuke: “korisnici koji su gledali X možda žele Y”
Embedinzi su temelj svih modernih sustava semantičke pretrage i RAG arhitektura — bez njih AI asistenti ne bi mogli učinkovito pristupiti vlastitoj dokumentaciji ili znanju izvan konteksta razgovora.