Temelji
Mehanizam pažnje (attention)
Tehnika neuronskih mreža koja modelu omogućuje vaganje važnosti svakog ulaznog tokena u odnosu na druge, srž suvremenih transformera.
Mehanizam pažnje (attention) je tehnika u neuronskim mrežama koja modelu dopušta da za svaku poziciju u ulaznoj sekvenci odluči koliko je svaka druga pozicija važna pri stvaranju izlaza. Umjesto da tokene obrađuje strogo redom, pažnja svakom paru pozicija dodjeljuje težinu i prema tome agregira informaciju.
Dominantna varijanta u suvremenom AI-u je self-attention, gdje su query, key i value vektori svi izvedeni iz iste sekvence. Svaki token računa sličnost sa svakim drugim, ti se rezultati provlače kroz softmax kako bi se dobile težine, a izlaz je težinska suma value vektora. Multi-head attention istu operaciju izvodi paralelno u više naučenih potprostora.
Pažnja je uvedena za strojno prevođenje 2014. (Bahdanau i sur.), a u središnji gradivni element pretvorena 2017. radom Attention Is All You Need koji je definirao transformer arhitekturu. Izbacivanje rekurencije u korist čiste pažnje omogućilo je masovnu paralelizaciju na GPU-ima i učinilo današnje velike jezične modele praktičnima.
Varijante poput flash attentiona, sliding-window attentiona i grouped-query attentiona smanjuju potrošnju memorije i računske snage, što je omogućilo rast konteksta s nekoliko tisuća na milijune tokena.