Interpretabilnost (interpretability)

Interpretabilnost (interpretability) je istraživačko polje koje nastoji razumjeti zašto AI model proizvodi određeni izlaz, umjesto da ga tretira kao crnu kutiju. Mehanistička interpretabilnost ide korak dalje i pokušava reverse-engineerati unutarnje izračune neuronske mreže — slično čitanju strojnog koda.

Ključni gradivni blokovi su značajke (features) — smjeri u prostoru aktivacija koji odgovaraju razumljivim konceptima — i sklopovi (circuits) — kauzalni lanci značajki koji izvode neki izračun. Pojedini neuroni obično kodiraju više pojmova istovremeno (polysemanticity), pa istraživači koriste rijetke autoenkodere i dictionary learning da razdvoje aktivacije u tisuće zasebnih, interpretabilnih značajki.

Polje je 2025.–2026. u središtu pažnje: Anthropic je izvukao milijune značajki iz Claudea, uključujući one vezane uz prijevaru i pristranost, što otvara put nadzoru i upravljanju ponašanjem modela. Interpretabilnost je sve važniji alat za sigurnost AI-ja i usklađenost — bez uvida u mehanizme teško je dokazati da model neće zakazati na nepredviđen način.

Izvori

Vidi također