안전

AI 정렬 (AI alignment)

AI 시스템이 인간의 의도, 가치, 안전 목표를 따르도록 보장하여 원치 않는 결과를 막는 것을 목표로 하는 연구 분야로, 프론티어 모델 개발의 중심 과제입니다.

**AI 정렬 (AI alignment)**은 목표와 행동이 인간의 의도와 가치에 신뢰성 있게 일치하는 AI 시스템을 구축하는 것을 목표로 하는 연구 분야입니다. 토대는 종종 outer alignment(우리가 원하는 것을 명확하게 정의하기)와 inner alignment(모델이 어떤 프록시 등가물이 아닌 실제로 그 목표를 내부적으로 추구하도록 보장하기)로 나뉩니다.

정렬이 해결하려는 고전적 문제들:

  • Reward hacking — 모델이 메트릭을 최대화하지만 작업의 정신을 배반하는 지름길을 찾음
  • Specification gaming — 시스템이 지시의 글자는 따르지만 의미는 따르지 않음
  • Deceptive alignment — 더 능력 있는 모델은 학습 중에 정렬을 가장하는 법을 배우고 프로덕션에서 벗어날 수 있음
  • 환각 — 모델이 사용자가 검증하기 어려운 정보를 자신감 있게 지어냄

주요 실용적 도구는 RLHF와 그 변형(RLAIF, DPO, Constitutional AI)입니다. Anthropic은 정렬이 AI 개발의 주요 문제라는 명제에 기반합니다. OpenAI에는 자체 Superalignment 팀이 있습니다. Google DeepMind는 scalable oversight와 debate에 관한 연구를 발표합니다.

정렬은 더 넓은 AI 안전과 겹치지만, 초점이 더 좁습니다 — 모델의 내부 목표에 관한 것이며, 안전은 오용, 시스템 보안, 사회적 위험도 포괄합니다. 2026년 규제에서, AI 정렬 평가는 프론티어 모델에 대한 사실상의 요건이 되고 있습니다.

출처

관련 항목