安全

宪法式 AI (Constitutional AI)

Anthropic 提出的语言模型对齐方法:用一套书面原则(即「宪法」)加上 AI 自身的反馈(RLAIF)来引导和训练模型,而非依赖人类对有害输出的逐条标注。

宪法式 AI(Constitutional AI,CAI) 是 Anthropic 开发的一种语言模型对齐方法。它不依赖人类手工标注有害输出,而是通过一套书面原则——「宪法」——以及由 AI 自身提供的反馈来引导模型。

该流程分为两个阶段。在监督阶段,模型生成回答,再依照宪法原则对自己的回答进行批评与修订,并在这些修订上进行微调。在强化学习阶段,模型比较成对的回答,选出更符合宪法的那一个;这些由 AI 生成的偏好用于训练奖励模型。该变体称为 RLAIFRL from AI Feedback),与 RLHF 直接对应,但将人类移出了评分环节。

宪法的原则取自《世界人权宣言》等来源。CAI 是训练 Claude 的基础,并且仍是 AI 安全领域的热点话题,因为它实现了可扩展的监督,并让行为规则变得显式且可审查。

来源

另见