Sigurnost

Interpretabilnost (interpretability)

Istraživačko polje koje nastoji razumjeti unutarnje mehanizme AI modela — značajke i sklopove — kako bi se objasnilo zašto model proizvodi određene izlaze.

Interpretabilnost (interpretability) je istraživačko polje koje nastoji razumjeti zašto AI model proizvodi određeni izlaz, umjesto da ga tretira kao crnu kutiju. Mehanistička interpretabilnost ide korak dalje i pokušava reverse-engineerati unutarnje izračune neuronske mreže — slično čitanju strojnog koda.

Ključni gradivni blokovi su značajke (features) — smjeri u prostoru aktivacija koji odgovaraju razumljivim konceptima — i sklopovi (circuits) — kauzalni lanci značajki koji izvode neki izračun. Pojedini neuroni obično kodiraju više pojmova istovremeno (polysemanticity), pa istraživači koriste rijetke autoenkodere i dictionary learning da razdvoje aktivacije u tisuće zasebnih, interpretabilnih značajki.

Polje je 2025.–2026. u središtu pažnje: Anthropic je izvukao milijune značajki iz Claudea, uključujući one vezane uz prijevaru i pristranost, što otvara put nadzoru i upravljanju ponašanjem modela. Interpretabilnost je sve važniji alat za sigurnost AI-ja i usklađenost — bez uvida u mehanizme teško je dokazati da model neće zakazati na nepredviđen način.

Izvori

Vidi također