Tokenizacija

Tokenizacija je prvi korak u obradi teksta za veliki jezični model — postupak razlaganja sirovog teksta na manje jedinice koje se nazivaju tokeni. Token može biti cijela riječ, podriječ (prefiks ili sufiks), pojedinačni znak ili čak nekoliko bajtova. Svaki token zatim dobiva jedinstveni cjelobrojni ID iz fiksnog rječnika modela (obično 30.000 do 200.000 unosa).

Moderni LLM-ovi gotovo svi koriste varijantu subword tokenizacije:

Byte-Pair Encoding (BPE) — koriste GPT modeli, počinje s pojedinačnim bajtovima i spaja najčešće parove
WordPiece — BERT obitelj, sličan BPE-u ali drugi kriterij spajanja
SentencePiece / Unigram — Llama, T5, mnogi multijezični modeli, radi izravno na sirovom tekstu bez prethodnog dijeljenja po razmacima
Tiktoken — OpenAI implementacija BPE-a, korištena za GPT-3.5/4/5

Tokenizacija izravno utječe na cijenu i veličinu konteksta: API-ji se naplaćuju po tokenu, a kontekstni prozor se mjeri u tokenima, ne u znakovima. Engleski tekst tipično troši ~0,75 tokena po riječi; hrvatski, njemački ili kineski mogu trošiti 1,5–3× više tokena za isti sadržaj — pa hrvatski upit nije samo jezično izazov, već i skuplji.

Nakon tokenizacije, svaki ID se preslikava u embedding vektor i ulazi u transformer slojeve modela.

Izvori

Vidi također