Temelji

Transformer

Arhitektura neuronske mreže predstavljena 2017. koja danas pokreće gotovo svaki suvremeni veliki jezični model. Temelji se na mehanizmu self-attention-a.

Transformer je arhitektura dubokog učenja predstavljena u radu Attention Is All You Need (Vaswani i sur., Google, 2017). Zamijenila je ranije rekurentne mreže (RNN, LSTM) za jezične zadatke i postala je okosnica gotovo svakog vrhunskog velikog jezičnog modela — GPT, Claude, Gemini, Llama, Mistral, DeepSeek su svi transformeri.

Ključna inovacija transformera je self-attention mehanizam koji omogućuje svakoj poziciji u sekvenci da paralelno “obraća pažnju” na svaku drugu poziciju. Time se eliminira sekvencijalno usko grlo RNN-ova, omogućuje treniranje na puno dužim kontekstima i efikasno skalira na modernim GPU-ima i TPU-ima.

Sloj transformera kombinira: multi-head self-attention (različiti “pogledi” na odnose u podacima), feed-forward mrežu, layer normalization i residual veze. Modeli stack-aju 24 do 100+ takvih slojeva. Varijante: encoder-only (BERT), decoder-only (GPT obitelj) i encoder-decoder (T5, izvorni transformer).

Transformeri danas pokreću ne samo jezik, nego i vid (ViT), audio (Whisper), protein folding (AlphaFold 2) i multimodalne modele. Arhitektura skalira izvanredno dobro: udvostručavanje parametara i podataka za treniranje nastavlja poboljšavati sposobnosti — princip iza današnjih frontier modela.

Izvori

Vidi također