Što je Lean i zašto ga se koristi?

Lean je proof assistant — programski jezik u kojem se matematički dokazi pišu kao tipovi i automatski verificiraju. Za razliku od neformalnog matematičkog teksta, Lean dokaz ili kompilira (ispravan) ili ne (neispravan), bez prostora za ljudsku grešku u verifikaciji.

Koliki je doseg ovog rezultata?

9 od 353 otvorenih Erdősovih problema (2,5 posto) i 44 od 492 OEIS konjektura (8,9 posto) je značajan rezultat za autonomni AI sustav, ali daleko od potpunog rješavanja domene — većina problema ostaje otvorena i zahtjeva matematičku intuiciju koju agent ne posjeduje.

arXiv: AI agent rješava 9 Erdősovih problema

Tim od 20 istraživača iz DeepMinda i MIT CSAIL-a objavio je prvu large-scale evaluaciju LLM-ova za autonomno generiranje formalnih dokaza u Lean theorem proveru. Agent kombinira LLM generaciju s Lean simboličkom verifikacijom i autonomno rješava 9 od 353 otvorenih Erdősovih problema te dokazuje 44 od 492 OEIS konjektura.

ArXiv preprint objavljen 21. svibnja 2026. predstavlja prvu large-scale evaluaciju LLM-ova za autonomno generiranje formalnih matematičkih dokaza u Lean theorem proveru, primijenjenu na otvorene Erdősove probleme i konjekture iz Online Encyclopedia of Integer Sequences (OEIS). Tim od 20 istraživača — uključujući članove DeepMind i MIT CSAIL — pokazao je da napredni agent autonomno rješava 9 od 353 otvorenih Erdősovih problema i dokazuje 44 od 492 OEIS konjektura.

Što je Lean i zašto je ključan za ovaj pristup?

Lean je proof assistant, programski jezik u kojem se matematički dokazi pišu kao tipovi koji se automatski verificiraju kompajlerom. Za razliku od neformalnog matematičkog teksta — koji može sadržavati subtilne greške koje promaknu peer-review procesu — Lean dokaz ili kompilira (i tad je matematički ispravan) ili ne (i tad je odbijen). Ne postoji prostor za ljudsku grešku u verifikaciji.

Ova svojstvenost je ključna za AI sustav. LLM-ovi mogu generirati matematički tekst koji izgleda uvjerljivo ali sadrži greške; bez automatske verifikacije, ljudski matematičari moraju ručno provjeriti svaki dokaz, što je usko grlo. S Leanom, sustav generira kandidat dokaze i Lean ih verificira u milisekundama — ako ne kompilira, sustav iterira; ako kompilira, dokaz je definitivno ispravan.

Što je Erdős problem set i zašto je značajno?

Erdősovi problemi su skup otvorenih matematičkih pitanja koja je formulirao Paul Erdős (1913-1996) tijekom svoje karijere. Pokrivaju diskretnu matematiku, teoriju brojeva, kombinatoriku, teoriju grafova i ekstremalnu kombinatoriku. Mnogi nose Erdősove obećane nagrade (od 25 do 10.000 USD) za rješenje. Service-projekt Erdős Problems održava listu od oko 800 takvih problema, od kojih su autori preprintа odabrali 353 koji su se mogli formulirati u Leanu.

Od 353 problema, autonomni agent rješava 9 (2,5 posto) — što su autori klasificirali kao “lower-tier” Erdős problemi koji se daju strukturalnim argumentom ili iscrpnim pretraživanjem dovoljno malog prostora. “Lower-tier” ne znači trivijalno — problemi su bili otvoreni desetljećima, samo nisu zahtijevali genijalnu kombinatornu intuiciju koju agent ne posjeduje. Ovi rezultati su koordinirani s Erdős Problems voditeljima koji su ih nezavisno potvrdili.

Kako agent kombinira LLM generaciju i Lean verifikaciju?

Agent ima cikličku arhitekturu. Korak 1: LLM (autori specifiraju internu varijantu DeepMind frontier modela s formal-math fine-tuning-om) čita formulaciju problema u Leanu i generira hipotezu o strukturi dokaza. Korak 2: Agent kompilira tu hipotezu kroz Lean — ako kompilira, vraća success; ako ne, Lean vraća specifičnu grešku (npr. “unknown identifier”, “type mismatch”, “tactic failed”). Korak 3: Agent feed-a tu grešku natrag u LLM s instrukcijom da iteracije. Korak 4: Ako 5 iteracija ne uspije, agent dekomponira problem na manje lemu i pokušava ih rješiti zasebno.

Autori naglašavaju da agent nije obavljao bezbrižno pretraživanje — Lean kompajlerova povratna informacija je strukturirala pretraživanje na način koji bi za čovjeka trajao mjesece, a agent obavlja u satima. Tipičan riješeni Erdős problem zahtijevao je 200-500 LLM poziva i 3-12 sati wall-clock vremena na 8×H100 setupu.

Što je OEIS i kakvi rezultati u tom dijelu?

OEIS (Online Encyclopedia of Integer Sequences) je baza od više od 380.000 cjelobrojnih nizova s opisima, formulama i konjekturama. Mnoge konjekture u OEIS-u su formulirane kao “ovaj niz je vjerojatno generiran formulom F, ali to nije dokazano”. Autori su odabrali 492 takve konjekture i pustili agent da pokuša formalno dokazati svaku.

Agent je dokazao 44 (8,9 posto), što su autori opet koordinirali s OEIS održavateljima za inkluziju u službene zapise. Većina dokazanih konjektura tiče se zatvorenih formi za rekurzivne nizove ili pomoćnih identiteta koji proizlaze iz već dokazanih većih rezultata. Konjekture koje su izmakle agentu uglavnom zahtijevaju kombinatornu bijekciju ili strukturalni argument koji agent nije autonomno otkrio.

Što ovo znači za matematičko istraživanje?

Autori ne tvrde da AI agent zamjenjuje matematičare. Tvrde da je sad operativan asistent koji može odraditi “low-hanging fruit” u formalizaciji dokaza — što oslobađa istraživače da se fokusiraju na probleme koji traže ljudsku kreativnost. Sljedeći koraci uključuju razvoj agenata koji bi mogli predlagati nove konjekture na temelju pattern recognition-a, i integraciju agenta s Lean Mathlib bazom (90.000+ formaliziranih teorema) za bogatiji reference frame.

arXiv:2605.22763: AI agent s Lean verifikacijom rješava 9 otvorenih Erdősovih problema i 44 OEIS konjekture

Što je Lean i zašto je ključan za ovaj pristup?

Što je Erdős problem set i zašto je značajno?

Kako agent kombinira LLM generaciju i Lean verifikaciju?

Što je OEIS i kakvi rezultati u tom dijelu?

Što ovo znači za matematičko istraživanje?

Česta pitanja

Izvori

Povezane vijesti