Infrastruktura

KV predmemorija

Spremljeni ključ/vrijednost tenzori pažnje koji se ponovno koriste kroz korake dekodiranja kako bi se ubrzala inferencija velikih jezičnih modela.

KV predmemorija (KV cache) je tehnika ubrzanja inferencije kojom se ključ (K) i vrijednost (V) tenzori, izračunati u slojevima mehanizma pažnje, spremaju i ponovno koriste kroz uzastopne korake generiranja teksta.

Veliki jezični modeli pišu jedan po jedan token, pri čemu se svaki novi token oslanja na sve prethodne. Bez predmemorije model bi pri svakom koraku iznova računao K i V projekcije za cijeli niz, što raste kvadratno s duljinom. Budući da se ti tenzori za već obrađene tokene ne mijenjaju, KV predmemorija ih sprema te se za svaki novi token računa pažnja samo nad njim. Time se trošak inferencije smanjuje s kvadratnog na linearni.

Tijekom 2025.–2026. KV predmemorija je glavno usko grlo memorije pri dugim kontekstnim prozorima i visokoj propusnosti. Cijena memorije raste s duljinom niza i brojem paralelnih zahtjeva, pa se razvijaju metode poput multi-query i grupirane pažnje, kvantizacije predmemorije te straničenja (PagedAttention) kako bi se zauzeće smanjilo.

Izvori

Vidi također