arXiv:2605.06651: AI Co-Mathematician postavlja FrontierMath rekord

Google DeepMind tim objavio je rad o AI Co-Mathematicianu, interaktivnoj radnoj površini gdje agenti surađuju s matematičarima na otvorenim problemima. Sustav je postigao 48% na FrontierMath Tier 4 benchmarku — novi rekord među svim AI sustavima.

Tim istraživača Google DeepMinda objavio je 7. svibnja 2026. rad pod nazivom “AI Co-Mathematician: Accelerating Mathematicians with Agentic AI” na arXivu. Sustav je interaktivna radna površina gdje AI agenti surađuju s matematičarima na otvorenim istraživačkim problemima, a ne autonomni dokazivač teorema.

Što je AI Co-Mathematician?

Sustav funkcionira kao interaktivna istraživačka radna površina dizajnirana za podršku otvorenoj matematičkoj istrazi. Pokriva pet primarnih dimenzija rada: ideaciju (konceptualni razvoj), pretragu literature, računsku eksploraciju, dokazivanje teorema i izgradnju teorije. Autori opisuju dizajn kao “holističku podršku eksploratornoj i iterativnoj stvarnosti matematičkih radnih tokova”, a model suradnje “preslikava ljudske kolaborativne procese” — naglasak je na partnerstvu, ne na automatizaciji.

Kako tehnički radi radni prostor?

Radna površina je asinkrona i sa stalnim stanjem: agent može raditi na hipotezama u pozadini dok istraživač radi nešto drugo, a kontekst preživljava sesije. Sustav obavlja četiri operativne funkcije: upravljanje neizvjesnošću, profinjavanje korisnikove namjere, praćenje neuspješnih hipoteza kako se isti pokušaji ne bi ponavljali, te generiranje matematičkih artefakata u standardnim formatima (LaTeX, Lean dokazi, računski notebookovi).

Što znači 48% na FrontierMath Tier 4?

FrontierMath je benchmark zatvorenih, neobjavljenih problema koje su konstruirali matematičari s doktoratom; Tier 4 je najteža razina i zahtijeva istraživačku matematiku, ne samo olimpijsku. Rezultat od 48% predstavlja novi rekord među svim dosad evaluiranim AI sustavima — značajan skok u odnosu na ranije objavljene rezultate koji su bili znatno niži. Autori navode da je rano testiranje s odabranim matematičarima već pomoglo riješiti otvorene probleme, što sugerira da benchmark broj odgovara stvarnoj korisnosti u istraživanju.

Što ovo mijenja za matematičku zajednicu?

Rad pozicionira AI ne kao zamjenu za istraživača, nego kao partnera koji ubrzava ciklus istraživanja. Praćenje neuspješnih hipoteza i asinkronost znače da matematičar može delegirati eksploraciju i vratiti se rezultatima — što je obrazac sličan kako se koriste agentni razvojni alati u softveru. Otvoreno pitanje, koje rad ne adresira, je hoće li sustav biti javno dostupan ili će ostati interni Google istraživački alat. Među 18 autora su Daniel Zheng, Ingrid von Glehn, Yori Zwols, Pushmeet Kohli i Fernanda Viegas.

Česta pitanja

Što je FrontierMath Tier 4?

FrontierMath je benchmark od stotina iznimno teških matematičkih problema, a Tier 4 je najviša razina koja zahtijeva istraživačku matematiku na razini doktorata; rezultati prijašnjih sustava su bili znatno ispod 48%.

Tko su autori rada?

Tim Google DeepMinda na čelu s Danielom Zhengom, Ingrid von Glehn, Yorijem Zwolsom, Pushmeet Kohlijem i Fernandom Viegas, ukupno 18 autora.

Je li sustav javno dostupan?

Rad opisuje rano testiranje s odabranim matematičarima; javna dostupnost ili API nisu najavljeni u apstraktu.

arXiv:2605.06651: Google DeepMind predstavlja AI Co-Mathematician s 48% na FrontierMath Tier 4

Što je AI Co-Mathematician?

Kako tehnički radi radni prostor?

Što znači 48% na FrontierMath Tier 4?

Što ovo mijenja za matematičku zajednicu?

Česta pitanja

Izvori

Povezane vijesti