평가

AI 평가

벤치마크, 사람 평가, 레드팀을 통해 출시 전후로 AI 모델의 능력·안전성·정렬을 체계적으로 측정하는 분야.

AI 평가(AI evaluation)는 AI 모델의 능력·안전성·정렬을 체계적으로 측정하는 분야다. 모델이 무엇을 할 수 있고, 어디서 실패하며, 얼마나 위험한지를 출시 전후에 걸쳐 객관적으로 규명하는 것을 목표로 한다.

평가는 여러 방법을 결합한다. 표준화된 벤치마크는 고정된 과제 집합에서 지식과 기술을 채점한다. 사람 평가(A/B 비교, 응답 채점)는 자동 테스트가 놓치는 품질을 포착한다. 레드팀은 적대적 방법으로 탈옥과 오용을 찾아내며, 환각·아첨(시코펀시)·기만 행동도 점점 더 측정 대상에 포함된다. HELM 같은 종합 프레임워크는 정확도와 함께 편향·견고성·유해성도 추적한다.

2025~2026년 평가는 AI 안전정렬을 관리하는 핵심이 되었다. 각 연구소는 프런티어 모델마다 결과를 담은 “시스템 카드”를 공개하고, OpenAI와 Anthropic은 서로의 모델을 교차 평가했으며, EU AI법과 각국 AI 연구소는 이를 규제 요건으로 삼는다. 핵심 과제는 벤치마크 포화와 오염으로, 높은 점수가 실제 환경에서의 신뢰성을 보장하지는 않는다.

출처

관련 항목