arXiv：추론 컴퓨팅에 의존하는 벤치마크 결과의 새로운 발견

논문은 벤치마크 결과가 측정 프로토콜에 크게 의존한다는 것을 보여줍니다. 소프트웨어, 수학, 의학, 사이버보안의 7개 고난도 테스트에서 12개 프런티어 모델을 테스트했습니다. 더 큰 토큰 예산은 FrontierMath, Humanity's Last Exam, TerminalBench의 결과를 크게 향상시키며, 모델 순위는 추론 컴퓨팅 예산에 따라 달라집니다. 저자들은 능력을 단일 수치가 아닌 추론 시점 컴퓨팅의 함수로 보고할 것을 권장합니다.

새 프리프린트는 벤치마크 결과가 측정 프로토콜에 크게 의존한다고 경고하며, 일반적인 프런티어 모델 순위표에 의문을 제기합니다.

저자들은 무엇을 테스트했나요？

이 논문은 소프트웨어, 수학, 의학, 사이버보안 분야의 7개 고난도 벤치마크에서 12개 프런티어 모델을 테스트합니다. 핵심 변수는 추론 컴퓨팅——모델이 태스크를 해결할 때 소비할 수 있는 컴퓨팅 양, 즉 토큰 예산입니다. 표준 평가는 일반적으로 이 예산을 고정하지만, 논문은 그것이 바로 결정적인 요인임을 보여줍니다.

더 큰 예산으로 무엇이 달라지나요？

더 큰 토큰 예산은 FrontierMath, Humanity’s Last Exam, TerminalBench, 사이버보안 테스트에서 결과를 크게 향상시킵니다. 더 중요한 것은 모델 순위가 그 예산에 따라 달라진다는 점입니다——작은 예산에서 최고인 모델이 큰 예산에서도 최고라는 보장이 없습니다. 따라서 고정 예산 평가는 실제 능력을 체계적으로 과소평가합니다.

모델 평가에 왜 중요한가요？

저자들은 모델 능력을 단일 수치가 아닌 추론 시점 컴퓨팅의 함수로 보고할 것을 권장합니다. 이 발견은 보안 및 정책 평가와도 관련이 있습니다. 컴퓨팅 예산을 통제하지 않은 모델 평가는 신뢰할 수 없고 오해를 불러일으키는 순위를 낳을 수 있습니다.

자주 묻는 질문

이 논문의 주요 발견은 무엇인가요？

프런티어 모델의 결과와 순위는 추론 컴퓨팅 예산에 크게 의존하므로, 고정 예산 평가는 실제 능력을 과소평가합니다.

저자들은 무엇을 권장하나요？

모델 능력을 단일 수치가 아닌 추론 시점 컴퓨팅의 함수로 보고하는 것입니다.

arXiv:2606.17930: 벤치마크 결과는 평가 프로토콜에 따라 달라진다——추론 컴퓨팅이 프런티어 모델 순위를 바꾼다

저자들은 무엇을 테스트했나요？

더 큰 예산으로 무엇이 달라지나요？

모델 평가에 왜 중요한가요？

자주 묻는 질문

출처

관련 뉴스