安全

憲法AI(Constitutional AI)

有害な出力への人間のラベル付けに頼らず、成文化された原則のセット(憲法)とAI自身のフィードバック(RLAIF)によってモデルを整合させる、Anthropicのアライメント手法です。

**憲法AI(Constitutional AI、CAI)**は、Anthropicが開発した言語モデルの整合(アライメント)手法です。有害な出力を人間が手作業でラベル付けすることに頼る代わりに、成文化された原則のセット — 「憲法」 — と、AI自身が提供するフィードバックによってモデルを導きます。

プロセスは2つの段階で進みます。教師あり段階では、モデルが応答を生成し、憲法の原則に照らして自らの応答を批評・修正し、その修正を用いてファインチューニングされます。強化学習段階では、モデルが応答のペアを比較し、憲法によりよく従う方を選びます。これらのAIが生成した選好から報酬モデルが学習されます。この派生は RLAIFRL from AI Feedback)と呼ばれ、RLHFを直接的に反映しつつ、評価のループから人間を取り除いたものです。

憲法は世界人権宣言などの情報源から原則を引いています。CAIはClaudeの学習の基盤であり、スケーラブルな監督を可能にし、行動ルールを明示的で検証可能なものにするため、AIセーフティの重要なテーマであり続けています。

出典

関連項目