Mehanizam pažnje (attention)

Mehanizam pažnje (attention) je tehnika u neuronskim mrežama koja modelu dopušta da za svaku poziciju u ulaznoj sekvenci odluči koliko je svaka druga pozicija važna pri stvaranju izlaza. Umjesto da tokene obrađuje strogo redom, pažnja svakom paru pozicija dodjeljuje težinu i prema tome agregira informaciju.

Dominantna varijanta u suvremenom AI-u je self-attention, gdje su query, key i value vektori svi izvedeni iz iste sekvence. Svaki token računa sličnost sa svakim drugim, ti se rezultati provlače kroz softmax kako bi se dobile težine, a izlaz je težinska suma value vektora. Multi-head attention istu operaciju izvodi paralelno u više naučenih potprostora.

Pažnja je uvedena za strojno prevođenje 2014. (Bahdanau i sur.), a u središnji gradivni element pretvorena 2017. radom Attention Is All You Need koji je definirao transformer arhitekturu. Izbacivanje rekurencije u korist čiste pažnje omogućilo je masovnu paralelizaciju na GPU-ima i učinilo današnje velike jezične modele praktičnima.

Varijante poput flash attentiona, sliding-window attentiona i grouped-query attentiona smanjuju potrošnju memorije i računske snage, što je omogućilo rast konteksta s nekoliko tisuća na milijune tokena.

Izvori

Vidi također