🤖 24 AI
🟡 🤖 Modeli srijeda, 15. travnja 2026. · 2 min čitanja

ArXiv: Otkriveni neuroni odgovorni za štetne odgovore velikih jezičnih modela

Zašto je bitno

Kauzalna analiza mehanizama unutar LLM-ova otkriva da štetni sadržaj nastaje u kasnijim slojevima modela, primarno kroz MLP blokove. Mali skup neurona u završnom sloju djeluje kao kontrolni mehanizam za štetne odgovore.

Zašto veliki jezični modeli ponekad generiraju štetne odgovore, unatoč opsežnom treningu za sigurnost? Nova studija koristi kauzalnu mediacijsku analizu da otkrije točne mehanizme unutar modela koji su za to odgovorni.

Ključno otkriće: kasni slojevi i MLP blokovi

Istraživači su ustanovili da generiranje štetnog sadržaja nastaje u kasnijim slojevima modela, i to primarno kroz greške u MLP (multi-layer perceptron) blokovima, a ne u blokovima pažnje (attention). Rani slojevi modela razumiju štetni kontekst u promptu i propagiraju te signale kroz MLP-ove prema izlazu.

Neuroni kao kontrolni mehanizam

Posebno zanimljivo otkriće je da mali, rijedak skup neurona u završnom sloju modela djeluje kao svojevrsni kontrolni mehanizam — “kapija” koja odlučuje hoće li štetni sadržaj biti generiran ili blokiran.

To znači da sigurnosno ponašanje modela nije difuzno raspoređeno kroz cijelu mrežu, već je koncentrirano u specifičnim, identificabilnim komponentama.

Što to znači za sigurnost AI-ja?

Ovo otkriće otvara vrata za ciljane sigurnosne intervencije — umjesto skupog RLHF treninga cijelog modela, moglo bi biti moguće kirurški modificirati samo kritične neurone koji kontroliraju štetne izlaze. To bi bilo brže, jeftinije i preciznije.

Trenutne metode poput RLHF-a (Reinforcement Learning from Human Feedback) tretiraju model kao “crnu kutiju” i pokušavaju promijeniti ponašanje izvana. Ovaj rad sugerira da je moguć precizniji, mehanistički pristup sigurnosti — poput razlike između operacije i uzimanja lijeka za simptome.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.