🟡 ✨ 注目トピック 公開日: · 4 分で読めます ·

arXiv:2605.22763:AI エージェントがLean検証で9つの開放Erdős問題と44のOEIS予想を解決

arXiv:2605.22763 ↗

編集イラスト:数学記号とLean型を結ぶ形式的証明ツリー

DeepMindとMIT CSAILから20名の研究者が参加するチームが、Lean定理証明器でのLLMによる形式的証明の自律的生成に関する最初の大規模評価を発表しました。エージェントはLLM生成とLeanによる記号的検証を組み合わせ、353の開放Erdős問題のうち9つを自律的に解決し、492のOEIS予想のうち44を証明しました。

🤖

この記事はAIにより一次情報源から生成されました。

2026年5月21日に公開されたarXivプレプリントは、開放Erdős問題と整数列のオンライン百科事典(OEIS)の予想に適用された、Lean定理証明器でのLLMによる形式的数学証明の自律的生成に関する最初の大規模評価を提示しています。20名の研究者からなるチーム——DeepMindとMIT CSAILのメンバーを含む——は、高度なエージェントが353の開放Erdős問題のうち9つを自律的に解決し、492のOEIS予想のうち44を証明することを示しました。

Leanとは何ですか、このアプローチにとってなぜ重要なのか?

Leanは証明支援システムで、数学的証明を型として記述しコンパイラが自動的に検証するプログラミング言語です。ピアレビューをすり抜ける微妙な誤りを含む可能性がある非形式的な数学テキストとは異なり——Lean証明はコンパイルされる(そして数学的に正しい)かされない(そして拒否される)かのどちらかです。検証における人間の誤りの余地はありません。

この特性はAIシステムにとって重要です。LLMは説得力があるように見えるが誤りを含む数学テキストを生成できます;自動検証なしには、人間の数学者がすべての証明を手動でチェックする必要があり、これがボトルネックです。Leanを使えば、システムは候補証明を生成し、Leanがミリ秒で検証します——コンパイルされなければシステムは反復し;コンパイルされれば証明は確定的に正しいです。

Erdős問題セットとは何ですか、なぜ重要なのか?

Erdős問題は、Paul Erdős(1913-1996)がキャリアを通じて提唱した一連の開放数学問題です。離散数学、数論、組合せ論、グラフ理論、極端組合せ論を網羅しています。多くはErdősが約束した現金賞金(25〜10,000ドル)を伴います。Erdős Problemsサービスプロジェクトは約800のそのような問題のリストを維持しており、プレプリントの著者はLeanで定式化できる353の問題を選択しました。

353問題のうち、自律エージェントは9問(2.5%)を解決しました——著者はこれを構造的議論または十分に小さな空間の網羅的探索で解けるErdősの「低層」問題として分類しました。「低層」は些細という意味ではありません——問題は数十年間開放されており、ただエージェントが持っていない天才的な組合せ的直感を必要としないだけです。これらの結果はErdős Problemsの管理者と調整され、独立して確認されました。

エージェントはLLM生成とLean検証をどう組み合わせるか?

エージェントは循環アーキテクチャを持ちます。ステップ1:LLM(著者は形式数学のファインチューニングを施したDeepMindの内部フロンティアモデルの変種を指定)がLeanでの問題の定式化を読み、証明の構造についての仮説を生成します。ステップ2:エージェントがその仮説をLeanを通じてコンパイルします——コンパイルされれば成功を返し;されなければLeanが特定のエラーを返します(例:「未知の識別子」、「型の不一致」、「タクティクの失敗」)。ステップ3:エージェントそのエラーをLLMにフィードバックし、反復を指示します。ステップ4:5回の反復が失敗すれば、エージェントは問題をより小さな補題に分解し、別々に解こうとします。

著者らはエージェントが目的なく探索していたのではないことを強調しています——Leanコンパイラのフィードバックが、人間には数か月かかる方法で探索を構造化し、エージェントは8×H100のセットアップで数時間で完了します。典型的な解決されたErdős問題は200〜500回のLLM呼び出しを必要とし、3〜12時間の実際の時間を必要とします。

OEISとは何ですか、その部分の結果は?

OEIS(整数列のオンライン百科事典)は380,000以上の整数列とその説明、数式、予想を持つデータベースです。OEISの多くの予想は「この列はおそらく公式Fによって生成されるが、それは証明されていない」として定式化されています。著者らは492のそのような予想を選択し、エージェントにそれぞれを形式的に証明させました。

エージェントは44問(8.9%)を証明しました。著者らは再びOEIS管理者と調整して公式記録への掲載を実現しました。証明された予想の多くは、再帰列の閉形式または既に証明された大きな結果から生じる補助的な恒等式に関するものです。エージェントが届かなかった予想は主に、エージェントが自律的に発見しなかった組合せ的な全単射または構造的議論を必要とするものです。

これは数学研究にとって何を意味するか?

著者らはAIエージェントが数学者に取って代わると主張しているのではありません。今や、証明の形式化における「低垂れた実」を処理できる操作可能なアシスタントが存在することを主張しています——これにより研究者は人間の創造性を必要とする問題に集中できます。次のステップには、パターン認識に基づいて新しい予想を提案できるエージェントの開発と、より豊かなリファレンスフレームのためのLean Mathlib(90,000以上の形式化された定理)ライブラリとのエージェント統合が含まれます。

よくある質問

Leanとは何ですか、なぜ使用されるのですか?
Leanは証明支援システム——数学的証明を型として記述し自動検証するプログラミング言語です。非形式的な数学テキストとは異なり、Lean証明はコンパイルされる(正しい)かされない(誤り)かのどちらかで、検証における人間の誤りの余地はありません。
Erdős問題とは何ですか?
Erdős問題は、Paul Erdősがキャリアを通じて提唱した一連の開放数学問題で、離散数学、数論、組合せ論、グラフ理論を網羅しています。多くは数十年間開放されており、解決に対して現金賞金が提供されています。
この結果の影響範囲はどれほどですか?
353の開放Erdős問題のうち9つ(2.5%)と492のOEIS予想のうち44(8.9%)は自律AIシステムにとって重要な結果ですが、その分野を完全に解決するには程遠く、ほとんどの問題はエージェントが持っていない数学的直感を必要として開放されています。