AI 안전 (AI safety)

**AI 안전 (AI safety)**은 AI 시스템의 위험을 다루는 학제간 분야로, 오늘날의 구체적인 오류와 오용에서부터 매우 능력 있는 시스템과 관련된 장기적인 실존적 우려까지를 포괄합니다.

위험의 전형적인 분류:

오용 (Misuse): 딥페이크, 허위 정보, 멀웨어 코드, 생화학적 지시 생성. 의식적인 오용
사고 (Accidents): 환각, 선의에서도 잘못된 일을 하는 시스템 (자율 주행차, 의료 조언)
구조적 (Structural): 권력 집중, 노동 시장 영향, 감시, 국가에 의한 오용
재앙적 / 실존적 (Catastrophic / existential): 인간의 감독을 받을 수 없는 미래의 시스템

실용적인 도구로는 다음이 있습니다: 능력과 위험한 행동의 평가, 레드팀, 해석 가능성(내부 표현의 메커니즘적 분석), 프로덕션에서의 모니터링, 접근 통제, “model cards”와 “system cards”, responsible scaling policies (Anthropic), preparedness frameworks (OpenAI), frontier safety frameworks (Google DeepMind).

제도적으로 2024-2026년은 국가 AI 안전 연구소(영국, 미국, 싱가포르, EU, 크로아티아는 EU AISB를 통해 간접적으로)의 물결을 가져왔습니다. EU AI Act는 일부 안전 요구 사항을 법으로 통합합니다 — 시스템 위험을 가진 GPAI에 대한 의무 평가, 투명성, 고위험에 대한 인간 감독.

AI 안전은 AI 정렬과 자주 혼동됩니다 — 정렬은 더 좁은 초점(모델의 내부 목표)을 가지고 있고, 안전은 AI를 둘러싼 사회기술적 시스템 전체를 포괄합니다.

출처

관련 항목