MathNet: 47개국 30,676개 올림피아드 문제, 최신 모델도 여전히 뒤처져
왜 중요한가
MIT 팀이 47개국 17개 언어에서 수집한 30,676개의 올림피아드 수학 문제가 있는 멀티모달 벤치마크 MathNet을 발표했습니다. Gemini-3.1-Pro는 78.4%, GPT-5는 69.3%를 달성하며, 임베딩 모델은 수학적으로 동일한 문제를 찾는 데 큰 어려움을 보입니다.
MathNet: 47개국 30,676개 올림피아드 문제, 최신 모델도 여전히 뒤처져
Shaden Alshammari가 이끄는 MIT 연구팀이 MathNet——지금까지 가장 큰 올림피아드 수학 문제 멀티모달 벤치마크——을 발표했습니다. 이 논문은 ICLR 2026 학회에 채택되었습니다.
MathNet이 제공하는 것
MathNet은 47개국 17개 언어 20년간의 수학 올림피아드에서 수집된 전문가가 작성한 해설이 있는 30,676개 문제를 포함합니다. 데이터셋은 멀티모달로, 텍스트 표현뿐만 아니라 올림피아드 수학에서 필수적인 도표, 그래프, 기하학적 스케치도 포함합니다. 벤치마크는 세 가지 다른 작업을 측정합니다: 문제 해결, 수학적 검색 정확성, 검색 증강 문제 해결. 후자 두 가지를 위해 연구자들은 수학적으로는 동일하지만 구조적으로 다르게 표현된 문제 쌍을 수동으로 큐레이션했습니다.
현재 모델의 결과
최신 모델들은 뚜렷한 격차를 보여줍니다. Gemini-3.1-Pro는 78.4% 정확도를 달성하고, GPT-5는 69.3%에 도달합니다. 이것이 복잡한 올림피아드 문제에 대해서는 인상적인 수치이지만, 결과는 최고 수준의 수학적 추론이 아직 완전히 해결되지 않았음을 확인합니다. 흥미로운 발견은 텍스트를 유사성 검색을 위한 숫자 벡터로 변환하는 임베딩 모델이 다른 어휘로 표현된 수학적으로 동일한 문제를 찾는 데 큰 어려움을 겪는다는 것입니다. 이는 검색 증강 접근법이 검색 품질에 의존하기 때문에 중요합니다.
왜 검색 품질이 게임을 바꾸는가
DeepSeek-V3.2-Speciale 모델은 관련 문제의 질 높은 검색이 제공될 때 최대 12 퍼센트포인트 개선을 받았습니다. 이는 수학 AI의 미래 발전이 더 큰 모델뿐만 아니라 수학적 의미론에 특화된 더 나은 임베딩 아키텍처에서도 올 것임을 시사합니다. 고전적 텍스트 임베딩은 일반 코퍼스에서 훈련되며, 디오판토스 방정식에 관한 두 문제가 다른 표기법이나 언어를 사용하면 매우 다르게 보일 수 있습니다. 특화된 수학적 임베딩의 필요성은 새로운 연구 방향의 기회를 만들며, MathNet은 그 평가를 위한 표준화된 문제 쌍 세트를 제공합니다. 데이터셋과 벤치마크는 Creative Commons BY 4.0 라이선스 하에 mathnet.mit.edu에서 공개적으로 이용 가능합니다. 저자에는 Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba도 포함되며, 데이터셋 유지 및 확장을 중심으로 활발한 커뮤니티가 형성될 것으로 예상됩니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.