宪法式 AI (Constitutional AI)

Anthropic 提出的语言模型对齐方法：用一套书面原则（即「宪法」）加上 AI 自身的反馈（RLAIF）来引导和训练模型，而非依赖人类对有害输出的逐条标注。

宪法式 AI（Constitutional AI，CAI） 是 Anthropic 开发的一种语言模型对齐方法。它不依赖人类手工标注有害输出，而是通过一套书面原则——「宪法」——以及由 AI 自身提供的反馈来引导模型。

该流程分为两个阶段。在监督阶段，模型生成回答，再依照宪法原则对自己的回答进行批评与修订，并在这些修订上进行微调。在强化学习阶段，模型比较成对的回答，选出更符合宪法的那一个；这些由 AI 生成的偏好用于训练奖励模型。该变体称为 RLAIF（RL from AI Feedback），与 RLHF 直接对应，但将人类移出了评分环节。

宪法的原则取自《世界人权宣言》等来源。CAI 是训练 Claude 的基础，并且仍是 AI 安全领域的热点话题，因为它实现了可扩展的监督，并让行为规则变得显式且可审查。

来源

另见

https://en.wikipedia.org/wiki/Constitutional_AI