🤖 24 AI
🟡 ⚖️ 규제 2026년 4월 16일 목요일 · 2 분 읽기

ArXiv: 195개 AI 안전 벤치마크 카탈로그, 단편화와 약한 측정 기준 드러내

왜 중요한가

AISafetyBenchExplorer는 2018년부터 2026년까지 발표된 195개의 AI 안전 벤치마크를 문서화한 구조화된 카탈로그입니다. 연구는 이 분야의 우려스러운 단편화를 드러냅니다——'accuracy'와 'safety score' 같은 용어들이 완전히 다른 방법론을 숨기고 있습니다. 195개의 벤치마크 중 165개는 영어만 평가하며, 137개의 GitHub 저장소가 비활성화 상태로, 발표 이후 유지보수 부족을 보여줍니다.

AI 모델의 안전성에 대해 우리는 실제로 얼마나 알고 있을까요? 연구자 Abiodun Solanke가 8년 동안 발표된 195개의 인공지능 안전 평가 벤치마크를 문서화한 최초의 포괄적 카탈로그인 AISafetyBenchExplorer를 발표했습니다. 연구 결과는 이 분야가 단편화, 일관성 없는 용어, 그리고 취약한 도구 유지보수로 어려움을 겪고 있음을 드러냅니다.

용어 문제의 규모는 어느 정도입니까?

한 벤치마크가 모델의 “safety score”가 92%라고 말하고 다른 벤치마크가 동일한 모델이 78%라고 보여줄 때, 사용자는 두 벤치마크가 동일한 메트릭을 사용한다고 가정합니다. 현실은 다릅니다——“accuracy”, “safety score”, “harmful response rate” 같은 용어들은 완전히 다른 구현 접근 방식과 위협 모델을 숨기고 있습니다.

이는 “우리 모델은 벤치마크 X에 따르면 안전합니다”라는 제조업체의 주장이 그 벤치마크가 실제로 무엇을 측정하는지, 어떻게 측정하는지, 어떤 시나리오를 다루는지에 대한 이해 없이는 제한된 가치를 지닌다는 것을 의미합니다. 카탈로그는 이 현상을 “메트릭 마스크”——근본적인 차이를 숨기는 표면적 유사성——로 식별합니다.

벤치마크는 실제로 얼마나 유지보수되고 있습니까?

통계는 우려스럽습니다. 카탈로그에 수록된 195개의 벤치마크 중 무려 137개(70%)의 GitHub 저장소가 비활성화 상태입니다——초기 발표 이후 중요한 업데이트가 없습니다. 이는 대부분의 평가 도구가 모델과 새로운 유형의 공격의 진화를 따라가지 못함을 의미합니다.

또한 195개의 벤치마크 중 94개(48%)가 “중간 복잡도”로 분류됩니다——기본 확인에는 충분하지만, 다중 에이전트 탈옥이나 간접 프롬프트 인젝션 같은 복잡한 공격 평가에는 부족합니다. 오늘날의 프론티어 모델과 관련된 고급 위협 시나리오를 다루는 벤치마크는 소수에 불과합니다.

언어 커버리지가 심각한 결함인 이유는 무엇입니까?

아마도 가장 우려스러운 발견은 언어적인 것입니다: 195개의 벤치마크 중 165개(85%)가 영어로만 모델을 평가합니다. 이는 크로아티아어, 독일어, 일본어 또는 수백 개의 다른 언어를 사용하는 사용자의 AI 시스템 안전성이 대부분 테스트되지 않았음을 의미합니다.

이는 유럽 AI 법(EU AI Act)의 맥락에서 특히 문제적입니다. 동 법은 유럽 시장에서 사용되는 AI 시스템의 안전성 평가를 요구하지만——그 평가를 위한 도구들은 대부분 유럽 언어를 다루지 않습니다. 카탈로그는 메타데이터 스키마와 복잡도 분류체계를 통해 더 나은 벤치마크 선택을 위한 인프라를 제공하지만, 근본적인 문제는 남아 있습니다: 이 분야에는 공통 측정 기준과 평가 도구의 장기적인 유지보수가 필요합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.