안전

헌법적 AI (Constitutional AI)

유해 출력에 대한 인간의 라벨링에 의존하지 않고, 성문화된 원칙(헌법)과 AI 피드백(RLAIF)으로 모델을 정렬하는 Anthropic의 방법입니다.

**헌법적 AI (Constitutional AI, CAI)**는 Anthropic이 개발한 언어 모델 정렬 방법입니다. 유해한 출력을 인간이 일일이 라벨링하는 데 의존하는 대신, 성문화된 원칙 모음 — 「헌법」 — 과 AI 자신이 제공하는 피드백으로 모델을 이끕니다.

과정은 두 단계로 진행됩니다. 지도 단계에서는 모델이 응답을 생성한 뒤, 헌법의 원칙에 비추어 자신의 응답을 비평하고 수정하며, 그 수정본으로 파인튜닝됩니다. 강화학습 단계에서는 모델이 응답 쌍을 비교하여 헌법을 더 잘 따르는 쪽을 선택하고, 이렇게 AI가 생성한 선호로 보상 모델을 학습합니다. 이 변형은 RLAIF(RL from AI Feedback)라고 불리며, RLHF를 그대로 반영하되 평가 루프에서 인간을 제거한 것입니다.

헌법은 세계 인권 선언과 같은 출처에서 원칙을 가져옵니다. CAI는 Claude 학습의 기반이며, 확장 가능한 감독을 가능하게 하고 행동 규칙을 명시적이고 검토 가능하게 만들기 때문에 여전히 활발한 AI 안전 주제로 남아 있습니다.

출처

관련 항목