ArXiv: Otkriveni neuroni odgovorni za štetne odgovore velikih jezičnih modela
Zašto je bitno
Kauzalna analiza mehanizama unutar LLM-ova otkriva da štetni sadržaj nastaje u kasnijim slojevima modela, primarno kroz MLP blokove. Mali skup neurona u završnom sloju djeluje kao kontrolni mehanizam za štetne odgovore.
Zašto veliki jezični modeli ponekad generiraju štetne odgovore, unatoč opsežnom treningu za sigurnost? Nova studija koristi kauzalnu mediacijsku analizu da otkrije točne mehanizme unutar modela koji su za to odgovorni.
Ključno otkriće: kasni slojevi i MLP blokovi
Istraživači su ustanovili da generiranje štetnog sadržaja nastaje u kasnijim slojevima modela, i to primarno kroz greške u MLP (multi-layer perceptron) blokovima, a ne u blokovima pažnje (attention). Rani slojevi modela razumiju štetni kontekst u promptu i propagiraju te signale kroz MLP-ove prema izlazu.
Neuroni kao kontrolni mehanizam
Posebno zanimljivo otkriće je da mali, rijedak skup neurona u završnom sloju modela djeluje kao svojevrsni kontrolni mehanizam — “kapija” koja odlučuje hoće li štetni sadržaj biti generiran ili blokiran.
To znači da sigurnosno ponašanje modela nije difuzno raspoređeno kroz cijelu mrežu, već je koncentrirano u specifičnim, identificabilnim komponentama.
Što to znači za sigurnost AI-ja?
Ovo otkriće otvara vrata za ciljane sigurnosne intervencije — umjesto skupog RLHF treninga cijelog modela, moglo bi biti moguće kirurški modificirati samo kritične neurone koji kontroliraju štetne izlaze. To bi bilo brže, jeftinije i preciznije.
Trenutne metode poput RLHF-a (Reinforcement Learning from Human Feedback) tretiraju model kao “crnu kutiju” i pokušavaju promijeniti ponašanje izvana. Ovaj rad sugerira da je moguć precizniji, mehanistički pristup sigurnosti — poput razlike između operacije i uzimanja lijeka za simptome.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Thinking with Reasoning Skills (ACL 2026 Industry Track): manje tokena, veća točnost kroz dohvat skilsova zaključivanja
DeepSeek objavio V4-Pro i V4-Flash: dva open-source modela s milijun tokena konteksta i 80,6 na SWE Verified
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate