AIセーフティ（AI safety）

**AIセーフティ（AI safety）**は、AIシステムのリスクを扱う学際的分野で、今日の具体的なエラーや悪用から、能力の高いシステムに関連する長期的な実存的懸念までを含みます。

リスクの典型的な区分：

悪用（Misuse）： ディープフェイク、偽情報、マルウェアコード、生化学的指示の生成。意識的な悪用
事故（Accidents）： ハルシネーション、善意でも_間違った_ことをするシステム（自動運転車、医療アドバイス）
構造的（Structural）： 権力の集中、労働市場への影響、監視、国家による悪用
破滅的／実存的（Catastrophic / existential）： 人間の監督に従えない将来のシステム

実用的なツールには以下が含まれます：能力と危険な振る舞いの評価、レッドチーム、解釈可能性（内部表現のメカニスティック分析）、本番でのモニタリング、アクセス制御、「model cards」と「system cards」、responsible scaling policies（Anthropic）、preparedness frameworks（OpenAI）、frontier safety frameworks（Google DeepMind）。

制度的に、2024〜2026年は国家AIセーフティ研究所（英国、米国、シンガポール、EU、クロアチアはEU AISBを通じて間接的に）の波をもたらしました。EU AI Actは、いくつかのセーフティ要件を法律に組み込んでいます — システムリスクを持つGPAIに対する義務的評価、透明性、高リスクに対する人間の監督。

AIセーフティはAIアラインメントとしばしば混同されます — アラインメントはより狭いフォーカス（モデルの内部目標）を持ち、セーフティはAIを取り巻く社会技術システム全体をカバーします。

出典

関連項目