arXivとは何ですか？

arXivはコーネル大学が運営する科学的プレプリントのオープンアーカイブリポジトリです。論文は必ずしも査読されていませんが、多くが学会で発表されます。

マルチモーダルベンチマークとは何ですか？

マルチモーダルベンチマークは複数の種類の入力を含み、通常はテキストと画像です。オリンピックの問題は幾何学的図形やグラフを含むため、数学にとって重要です。

MathNet：47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず

Shaden Alshammariが率いるMIT研究チームは、MathNet——これまでで最大のオリンピック数学問題のマルチモーダルベンチマーク——を発表しました。この論文はICLR 2026カンファレンスに採択されています。

MathNetが提供するもの

MathNetは専門家が書いた解答付きの30,676問を含み、47カ国17言語の20年間の数学オリンピックから収集されました。データセットはマルチモーダルで、テキストの定式化だけでなく、オリンピック数学に不可欠な図表、グラフ、幾何学的スケッチも含んでいます。ベンチマークは3つの異なるタスクを測定します。問題解決、数学的検索の精度、検索拡張による問題解決です。後者2つについては、研究者が数学的に同等だが構造的に異なる表現の問題ペアを手動でキュレーションしました。

現在のモデルの結果

最先端モデルは顕著なギャップを示しています。Gemini-3.1-Proは78.4%の精度を達成し、GPT-5は69.3%に達します。これらは複雑なオリンピック問題に対して印象的な数字ですが、結果は最高レベルの数学的推論がまだ完全には解決されていないことを確認しています。興味深い発見は、テキストを類似性検索のための数値ベクトルに変換する埋め込みモデルが、異なる語彙で定式化された数学的に同等の問題を見つける際に大きな困難を抱えているということです。これは検索拡張アプローチが検索品質に依存しているため、重要な発見です。

なぜ検索品質がゲームを変えるのか

DeepSeek-V3.2-Speciale モデルは、関連する問題の質の高い検索が提供されると最大12パーセントポイント改善されました。これは数学AIの将来の進歩が、より大きなモデルだけでなく、数学的意味論に特化したより良い埋め込みアーキテクチャからも来ることを示唆しています。古典的なテキスト埋め込みは一般的なコーパスで訓練されており、ディオファントス方程式に関する2つの問題は異なる記法や言語を使用している場合、まったく異なって見える可能性があります。専門化された数学的埋め込みの必要性は新しい研究方向の機会を生み出し、MathNetはそれらの評価のための標準化された問題ペアのセットを提供します。データセットとベンチマークはCreative Commons BY 4.0ライセンスの下でmathnet.mit.eduで公開されています。著者にはKevin Wen、Abrar Zainal、Mark Hamilton、Navid Safaei、Sultan Albarakati、William T. Freeman、Antonio Torralbaも含まれ、データセットの維持と拡張を中心に活発なコミュニティが形成されることが期待されます。

MathNet：47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず

MathNet：47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず

MathNetが提供するもの

現在のモデルの結果

なぜ検索品質がゲームを変えるのか

出典

関連ニュース