憲法AI（Constitutional AI）

**憲法AI（Constitutional AI、CAI）**は、Anthropicが開発した言語モデルの整合（アライメント）手法です。有害な出力を人間が手作業でラベル付けすることに頼る代わりに、成文化された原則のセット — 「憲法」 — と、AI自身が提供するフィードバックによってモデルを導きます。

プロセスは2つの段階で進みます。教師あり段階では、モデルが応答を生成し、憲法の原則に照らして自らの応答を批評・修正し、その修正を用いてファインチューニングされます。強化学習段階では、モデルが応答のペアを比較し、憲法によりよく従う方を選びます。これらのAIが生成した選好から報酬モデルが学習されます。この派生は RLAIF（RL from AI Feedback）と呼ばれ、RLHFを直接的に反映しつつ、評価のループから人間を取り除いたものです。

憲法は世界人権宣言などの情報源から原則を引いています。CAIはClaudeの学習の基盤であり、スケーラブルな監督を可能にし、行動ルールを明示的で検証可能なものにするため、AIセーフティの重要なテーマであり続けています。

出典

関連項目