ArXiv: Otkriveni neuroni odgovorni za štetne odgovore velikih jezičnih modela

Zašto veliki jezični modeli ponekad generiraju štetne odgovore, unatoč opsežnom treningu za sigurnost? Nova studija koristi kauzalnu mediacijsku analizu da otkrije točne mehanizme unutar modela koji su za to odgovorni.

Ključno otkriće: kasni slojevi i MLP blokovi

Istraživači su ustanovili da generiranje štetnog sadržaja nastaje u kasnijim slojevima modela, i to primarno kroz greške u MLP (multi-layer perceptron) blokovima, a ne u blokovima pažnje (attention). Rani slojevi modela razumiju štetni kontekst u promptu i propagiraju te signale kroz MLP-ove prema izlazu.

Neuroni kao kontrolni mehanizam

Posebno zanimljivo otkriće je da mali, rijedak skup neurona u završnom sloju modela djeluje kao svojevrsni kontrolni mehanizam — “kapija” koja odlučuje hoće li štetni sadržaj biti generiran ili blokiran.

To znači da sigurnosno ponašanje modela nije difuzno raspoređeno kroz cijelu mrežu, već je koncentrirano u specifičnim, identificabilnim komponentama.

Što to znači za sigurnost AI-ja?

Ovo otkriće otvara vrata za ciljane sigurnosne intervencije — umjesto skupog RLHF treninga cijelog modela, moglo bi biti moguće kirurški modificirati samo kritične neurone koji kontroliraju štetne izlaze. To bi bilo brže, jeftinije i preciznije.

Trenutne metode poput RLHF-a (Reinforcement Learning from Human Feedback) tretiraju model kao “crnu kutiju” i pokušavaju promijeniti ponašanje izvana. Ovaj rad sugerira da je moguć precizniji, mehanistički pristup sigurnosti — poput razlike između operacije i uzimanja lijeka za simptome.

ArXiv: Otkriveni neuroni odgovorni za štetne odgovore velikih jezičnih modela

Ključno otkriće: kasni slojevi i MLP blokovi

Neuroni kao kontrolni mehanizam

Što to znači za sigurnost AI-ja?

Izvori

Povezane vijesti