평가
벤치마크 (benchmark)
AI 모델의 능력을 측정하고 비교하는 표준화된 테스트나 데이터셋으로, MMLU, GPQA, SWE-bench, HumanEval, MMMU 등이 있습니다.
**벤치마크 (benchmark)**는 특정 작업에서 AI 모델의 능력을 측정하고 객관적으로 비교하기 위한 표준화된 테스트나 데이터셋입니다. 각 벤치마크는 고정된 문제 집합과 채점 방식(보통 정답 비율)을 정해 두어, 서로 다른 모델이 비교 가능한 결과를 얻도록 합니다.
잘 알려진 벤치마크는 다양한 능력을 다룹니다. MMLU는 57개 분야의 학술 지식을, GPQA는 박사 수준의 자연과학 문제를, SWE-bench는 실제 GitHub 버그 수정을, HumanEval은 프로그램 합성을, MMMU는 이미지와 텍스트의 멀티모달 이해를 평가합니다. 점수는 새로운 프런티어 모델에 동반되는 시스템 카드에 공개됩니다.
벤치마크는 2025~2026년 AI 평가의 핵심이지만 한계도 있습니다. MMLU 같은 오래된 테스트는 이미 _포화_되었고(선두 모델이 90%를 넘김), 테스트 문제가 학습 데이터에 유출되는 오염 위험도 있습니다. 높은 점수가 실제 환경에서의 신뢰성이나 환각의 부재를 보장하지는 않기에, 업계는 특히 추론 모델을 위해 더 어렵고 현실적인 테스트를 계속 개발하고 있습니다.