安全
解釈可能性(interpretability)
AIモデルの内部メカニズム——特徴と回路——を理解し、モデルがなぜ特定の出力を生成するのかを説明しようとする研究分野で、AIセーフティの重要なツールです。
解釈可能性(interpretability)は、AIモデルをブラックボックスとして扱うのではなく、なぜ特定の出力を生成するのかを理解しようとする研究分野です。機械論的解釈可能性はさらに踏み込み、ニューラルネットワークの内部計算をリバースエンジニアリングしようとします——機械語を読むことに似ています。
中核となる構成要素は、人間が理解できる概念に対応する活性化空間内の方向である特徴(features)と、計算を実行する特徴の因果連鎖である回路(circuits)です。個々のニューロンは通常複数の概念を同時に符号化する(多義性)ため、研究者はスパースオートエンコーダと辞書学習を用いて、活性化を数千の独立した解釈可能な特徴に分解します。
この分野は2025〜2026年に注目を集めています。Anthropicはdeceptionやバイアスに関連するものを含む数百万の特徴をClaudeから抽出し、モデルの振る舞いを監視・操舵する道を開きました。解釈可能性はAIセーフティとアラインメントにとってますます重要なツールです——メカニズムへの洞察なしには、モデルが予期しない形で失敗しないことを証明するのは困難です。