安全
憲法AI(Constitutional AI)
有害な出力への人間のラベル付けに頼らず、成文化された原則のセット(憲法)とAI自身のフィードバック(RLAIF)によってモデルを整合させる、Anthropicのアライメント手法です。
**憲法AI(Constitutional AI、CAI)**は、Anthropicが開発した言語モデルの整合(アライメント)手法です。有害な出力を人間が手作業でラベル付けすることに頼る代わりに、成文化された原則のセット — 「憲法」 — と、AI自身が提供するフィードバックによってモデルを導きます。
プロセスは2つの段階で進みます。教師あり段階では、モデルが応答を生成し、憲法の原則に照らして自らの応答を批評・修正し、その修正を用いてファインチューニングされます。強化学習段階では、モデルが応答のペアを比較し、憲法によりよく従う方を選びます。これらのAIが生成した選好から報酬モデルが学習されます。この派生は RLAIF(RL from AI Feedback)と呼ばれ、RLHFを直接的に反映しつつ、評価のループから人間を取り除いたものです。
憲法は世界人権宣言などの情報源から原則を引いています。CAIはClaudeの学習の基盤であり、スケーラブルな監督を可能にし、行動ルールを明示的で検証可能なものにするため、AIセーフティの重要なテーマであり続けています。