Infrastruktura
Kontekstni prozor
Maksimalan broj tokena koje LLM može razmotriti odjednom — uključuje upit, dokumente i odgovor; danas seže od 8K do 2 milijuna tokena.
Kontekstni prozor (context window) je maksimalan broj tokena koje veliki jezični model može uzeti u obzir u jednoj interakciji. Uključuje sustavski prompt, sve dokumente koje pošaljete, povijest razgovora i izlaz koji model generira. Kad se prozor popuni, mora se nešto odbaciti, sažeti ili premjestiti u eksterni store.
Veličina se mjeri u tokenima, ne u znakovima — jedan token približno odgovara 4 znaka engleskog teksta ili oko 0,75 riječi.
Evolucija u nekoliko godina:
- 2020.: GPT-3 imao je 2K tokena
- 2023.: GPT-4 32K, Claude 2 100K
- 2024.-2025.: Claude 3.5/3.7 200K, GPT-4o 128K, Gemini 1.5/2.0 1M-2M
- 2026.: Claude 1M kontekst (preview), produkcijski sustavi rutinski koriste 100K+
Veliki prozori omogućuju “context stuffing” — ubacivanje cijelih codebase-ova, dugih PDF-ova ili višesatnih transkripata. Ipak, ne rješavaju sve: studije “lost in the middle” pokazuju da modeli pažnju gube usred dugih dokumenata, a cijena i latencija rastu kvadratno s duljinom u klasičnoj transformer arhitekturi (iako moderne optimizacije poput FlashAttentiona i sparse attentiona to ublažavaju).
U praksi, RAG i pažljiva strukturiranost prompta često daju bolje rezultate nego naivno popunjavanje prozora.