Infrastruktura

Kontekstni prozor

Maksimalan broj tokena koje LLM može razmotriti odjednom — uključuje upit, dokumente i odgovor; danas seže od 8K do 2 milijuna tokena.

Kontekstni prozor (context window) je maksimalan broj tokena koje veliki jezični model može uzeti u obzir u jednoj interakciji. Uključuje sustavski prompt, sve dokumente koje pošaljete, povijest razgovora i izlaz koji model generira. Kad se prozor popuni, mora se nešto odbaciti, sažeti ili premjestiti u eksterni store.

Veličina se mjeri u tokenima, ne u znakovima — jedan token približno odgovara 4 znaka engleskog teksta ili oko 0,75 riječi.

Evolucija u nekoliko godina:

  • 2020.: GPT-3 imao je 2K tokena
  • 2023.: GPT-4 32K, Claude 2 100K
  • 2024.-2025.: Claude 3.5/3.7 200K, GPT-4o 128K, Gemini 1.5/2.0 1M-2M
  • 2026.: Claude 1M kontekst (preview), produkcijski sustavi rutinski koriste 100K+

Veliki prozori omogućuju “context stuffing” — ubacivanje cijelih codebase-ova, dugih PDF-ova ili višesatnih transkripata. Ipak, ne rješavaju sve: studije “lost in the middle” pokazuju da modeli pažnju gube usred dugih dokumenata, a cijena i latencija rastu kvadratno s duljinom u klasičnoj transformer arhitekturi (iako moderne optimizacije poput FlashAttentiona i sparse attentiona to ublažavaju).

U praksi, RAG i pažljiva strukturiranost prompta često daju bolje rezultate nego naivno popunjavanje prozora.

Izvori

Vidi također