🤖 24 AI
🟢 🤖 モデル 2026年4月22日水曜日 · 2 分で読めます

MathNet:47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず

編集イラスト:数学記号と47カ国の地球儀の断片を持つ相互接続されたノード

なぜ重要か

MITチームがMathNetを発表しました。47カ国17言語から集めた30,676問のオリンピック数学問題のマルチモーダルベンチマークです。Gemini-3.1-Proは78.4%、GPT-5は69.3%を達成し、埋め込みモデルは数学的に同等の問題を見つける際に大きな困難を示します。

MathNet:47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず

Shaden Alshammariが率いるMIT研究チームは、MathNet——これまでで最大のオリンピック数学問題のマルチモーダルベンチマーク——を発表しました。この論文はICLR 2026カンファレンスに採択されています。

MathNetが提供するもの

MathNetは専門家が書いた解答付きの30,676問を含み、47カ国17言語の20年間の数学オリンピックから収集されました。データセットはマルチモーダルで、テキストの定式化だけでなく、オリンピック数学に不可欠な図表、グラフ、幾何学的スケッチも含んでいます。ベンチマークは3つの異なるタスクを測定します。問題解決、数学的検索の精度、検索拡張による問題解決です。後者2つについては、研究者が数学的に同等だが構造的に異なる表現の問題ペアを手動でキュレーションしました。

現在のモデルの結果

最先端モデルは顕著なギャップを示しています。Gemini-3.1-Proは78.4%の精度を達成し、GPT-5は69.3%に達します。これらは複雑なオリンピック問題に対して印象的な数字ですが、結果は最高レベルの数学的推論がまだ完全には解決されていないことを確認しています。興味深い発見は、テキストを類似性検索のための数値ベクトルに変換する埋め込みモデルが、異なる語彙で定式化された数学的に同等の問題を見つける際に大きな困難を抱えているということです。これは検索拡張アプローチが検索品質に依存しているため、重要な発見です。

なぜ検索品質がゲームを変えるのか

DeepSeek-V3.2-Speciale モデルは、関連する問題の質の高い検索が提供されると最大12パーセントポイント改善されました。これは数学AIの将来の進歩が、より大きなモデルだけでなく、数学的意味論に特化したより良い埋め込みアーキテクチャからも来ることを示唆しています。古典的なテキスト埋め込みは一般的なコーパスで訓練されており、ディオファントス方程式に関する2つの問題は異なる記法や言語を使用している場合、まったく異なって見える可能性があります。専門化された数学的埋め込みの必要性は新しい研究方向の機会を生み出し、MathNetはそれらの評価のための標準化された問題ペアのセットを提供します。データセットとベンチマークはCreative Commons BY 4.0ライセンスの下でmathnet.mit.eduで公開されています。著者にはKevin Wen、Abrar Zainal、Mark Hamilton、Navid Safaei、Sultan Albarakati、William T. Freeman、Antonio Torralbaも含まれ、データセットの維持と拡張を中心に活発なコミュニティが形成されることが期待されます。

🤖

この記事はAIにより一次情報源から生成されました。