EvalEval Coalition:AI 평가가 새로운 컴퓨팅 병목 현상으로 — GAIA 단일 실행 $2,829, HAL 리더보드 $40,000, 학술 감사인들은 기술적 장벽 전에 예산 장벽에 직면
EvalEval Coalition(Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen)은 2026년 4월 29일 HuggingFace 블로그에 AI 모델 평가 비용이 폭발적으로 증가했음을 보여주는 분석을 게재했습니다. 단일 GAIA 실행 $2,829, HAL 리더보드 $40,000(k=8 신뢰도 $320,000), PaperBench는 에이전트당 약 $9,500. 정적 벤치마크는 100-200배 압축 가능하지만 에이전트 벤치마크는 2-3.5배에 불과합니다 — 독립 감사인에 대한 책임 장벽이 됩니다.
EvalEval Coalition(Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen)은 2026년 4월 29일 HuggingFace 블로그에 상세한 분석을 게재하여 AI 컴퓨팅 논의를 훈련에서 평가로 이동시키고, 경제 논리가 역전되었음을 보여줍니다.
구체적인 비용
2026년 프런티어 모델 단일 평가의 수치:
| 벤치마크 | 비용 |
|---|---|
| GAIA(단일 실행) | $2,829 |
| Online Mind2Web(Browser-Use + Claude Sonnet 4) | 40% 정확도에 $1,577 |
| HAL(종합 에이전트 리더보드, 전체) | 21,730회 롤아웃에 $40,000 |
| HAL 8회 실행 신뢰도 | ~$320,000 |
| PaperBench(전체) | 에이전트당 ~$9,500 |
| The Well(전체 스윕) | ~$9,600 |
| MLE-Bench(1 시드) | ~$5,500 |
비교:**HELM(2022년)**은 모든 모델의 모든 시나리오에 대해 총 약 $100,000이 들었습니다. 2026년에는 단일 벤치마크(신뢰도 포함 HAL)가 그 금액을 초과합니다.
벤치마크 압축 — 정적에는 작동하는 것이 에이전트에는 작동하지 않음
| 유형 | 최대 압축 | 순위 유지 |
|---|---|---|
| 정적 LLM 벤치마크 | 100-200배 | ✓ |
| 에이전트 벤치마크 | 2-3.5배 | 부분적 |
| 훈련 중 루프 | ~1배(불가능) | ✗ |
Flash-HELM, tinyBenchmarks, Anchor Points는 순위를 잃지 않고 정적 평가를 1%로 축소하는 데 성공했습니다. 에이전트에 대해서는 중간 난이도 필터링만이 2-3.5배를 달성합니다 — 다단계 상호작용은 단순하게 하위 샘플링할 수 없습니다.
책임 장벽
기사의 가장 중요한 논거:
「학술 그룹, AI 안전 연구소, 저널리스트들은 이제 프런티어 에이전트를 독립적으로 평가하려 할 때 기술적 장벽 전에 예산 장벽에 부딪힙니다. 단일 GAIA 실행이 박사 과정 학생의 연간 출장 예산을 초과할 수 있습니다.」
구체적인 수치:
- 6개 모델의 3 시드 비교:$150,000 이상
- HAL k=8 신뢰도:$320,000
- LLM 심사 포함 PaperBench:에이전트당 약 $9,500
모순:프런티어 연구소만이 통계적으로 신뢰할 수 있는 평가를 감당할 수 있다면, AI 시스템 평가의 사회적 과정이 그것들을 구축하는 동일한 연구소 내에 집중됩니다. 외부 검증은 부분적이거나 존재하지 않게 됩니다.
신뢰도 승수와 누출
연구는 또 다른 문제도 기록합니다:단일 실행 정확도는 통계적으로 신뢰할 수 없습니다.
- τ-bench 예시: 60%(단일)에서 25%(8회 일관성)로 하락
- 홀드아웃 누출: 에이전트 벤치마크 17개 중 12개가 홀드아웃 기준에 실패
- TAU-bench 데이터 오염이 2025년 12월에 발견되어 제거 필요
적절한 k=8 신뢰도 테스트는 모든 비용을 8배로 늘립니다.
제안된 해결책
EvalEval Coalition은 세 가지 방향을 제안합니다:
- 표준화된 데이터 공유 — HELM, lm-eval-harness, Inspect AI용 변환기를 갖춘 통합 메타데이터 스키마(evaleval/EEE_datastore)
- 파레토 효율적인 리더보드 — 정확도만이 아닌, 정확도 더하기 비용
- 중간 난이도 필터링 — 에이전트에 대한 최선의 2-3.5배 압축
왜 중요한가?
이 기사는 정책과 관련이 있습니다. EU AI Act, NIST AI RMF, 영국 AISI 평가 프레임워크 — 모두 접근 가능한 독립적 평가를 전제로 합니다. 평가가 연구 보조금보다 비싸다면, 규제는 종이 위에만 존재합니다.
「평가 비용을 낼 수 있는 사람이 리더보드를 작성합니다.」
AI 거버넌스에 대한 실제적 의미:
- 평가 예산을 기술적 비용이 아닌 핵심 거버넌스 기능으로 예산 책정
- 독립적인 평가 인프라 자금 지원(AISI, NIST 예산 등)
- 신뢰도 보고(pass^k)를 규제 표준으로
- 컴플라이언스 요건 설정 시 평가 비용 고려
자주 묻는 질문
- 프런티어 모델을 평가하는 데 실제로 얼마나 듭니까?
- GAIA 단일 실행:$2,829. Online Mind2Web(Browser-Use + Claude Sonnet 4):40% 정확도에 $1,577. 종합 에이전트 리더보드(HAL) 전체:9개 모델·9개 벤치마크의 21,730회 롤아웃에 $40,000. HAL 8회 실행 신뢰도:약 $320,000. PaperBench(전체):에이전트당 약 $9,500.
- 에이전트 벤치마크가 정적 벤치마크처럼 압축되지 않는 이유는 무엇입니까?
- 정적 LLM 벤치마크(HELM, tinyBenchmarks, Anchor Points)는 순위를 유지하면서 100-200배 압축을 달성합니다. 에이전트 벤치마크는 2-3.5배(중간 난이도 필터링)밖에 달성하지 못합니다. 에이전트 벤치마크에는 정보를 잃지 않고 단순한 하위 샘플 축소가 불가능한 다단계 상호작용이 포함되기 때문입니다.
- 「책임 장벽」이란 무엇입니까?
- 학술 그룹, AI 안전 연구소, 저널리스트들은 이제 프런티어 에이전트를 독립적으로 평가하려 할 때 기술적 장벽 전에 **예산** 장벽에 부딪힙니다. 단일 GAIA 실행이 박사 과정 학생의 연간 출장 예산을 초과할 수 있습니다. 이는 모델을 생산하는 프런티어 연구소만이 신뢰할 수 있는 평가를 감당할 수 있음을 의미하며, 독립적인 감사의 범위가 좁아집니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
관련 뉴스
DeepMind AI 공동 임상의: 98개 일차 진료 쿼리 블라인드 평가에서 의사들이 도구보다 선호, 97/98 사례에서 심각한 오류 제로
Anthropic Claude for Creative Work:Blender, Adobe Creative Cloud 50개 이상 도구, Autodesk Fusion, Ableton, SketchUp, Splice 연동
Google ERA:과학 연구용 AI 시스템이 입원 예측에서 CDC 최고 순위 달성, 미해결 우주론 문제 해결, 10분마다 CO2 관측