arXiv:2605.06660: VHG matematički generator

VHG (Verifier-backed Hard problem Generation) framework rješava problem stvaranja valjanih, teških i originalnih matematičkih zadataka za LLM trening. Uvodi neovisni verifikator u setter-solver dualnost — three-party self-play jamči i valjanost i težinu zadatka. Testirano na integralnom računu, VHG značajno nadmašuje sve baseline metode.

Istraživanje “Verifier-backed Hard Problem Generation” (Lai et al., arXiv:2605.06660) objavljeno 7. svibnja 2026. rješava važan problem u treniranju velikih jezičnih modela: kako automatski stvarati nove, valjane i dovoljno teške matematičke zadatke. Tim s Oxforda i kolaboratora pokazuje da neovisni verifikator unutar self-play petlje sprječava reward hacking koji muči klasične setter-solver pristupe.

Što je problem koji VHG rješava?

Iako LLM-ovi sve bolje rješavaju matematičke zadatke, sami ne mogu pouzdano proizvesti valjane, izazovne i originalne probleme. Ta sposobnost ključna je za napredak modela i autonomna znanstvena otkrića. Klasični setter-solver sustavi pate od reward hackinga: setter može maksimizirati solver-failure trivijalno generirajući loše definirane ili nerješive zadatke.

Three-party self-play s verifikatorom

VHG uvodi treći komponent — neovisni verifikator — pa setterov reward sada ovisi i o valjanosti (potvrđenoj verifikatorom) i o težini (procijenjenoj solver-failureom). Tim je testirao dvije verifikatorske varijante: tvrdi simbolički verifikator (strogi matematički validator) i mekani LLM-based verifikator (fleksibilniji, neuralni). Obje varijante uspješno suzbijaju invalidne outpute.

Rezultati i implikacije

Evaluacija je obuhvatila indefinite integral probleme i šire matematičko rezoniranje. VHG “značajno nadmašuje sve baseline metode jasno”, što sugerira da pristup nije specifičan za jednu domenu. Za RL trening matematičkih modela, framework otvara put autonomnoj kurikulumskoj generaciji — model može sam stvarati sve teže zadatke za vlastiti trening bez ljudske kuracije, što je preduvjet za superhuman matematičko rezoniranje.

Česta pitanja

Što je setter-solver dualnost?

Setter-solver je arhitektura samo-igranja u kojoj jedan model (setter) generira zadatke, a drugi (solver) ih rješava. Reward seteru ovisi o težini zadataka. Bez kontrole može doći do reward hackinga — generiranja nesmislenih ali 'teških' zadataka.

Zašto je potreban verifikator?

Verifikator garantira da je generirani matematički zadatak valjan (rješiv, jednoznačan, dobro definiran). Bez njega setter može maksimizirati solver-failure trivijalno — pisanjem netočnih problema. VHG nudi tvrdu simboličku i mekanu LLM verifikatorsku varijantu.

Koje domene su testirane?

Tim je evaluirao framework na indefinite integral problemima (integralni račun) i širem matematičkom rezoniranju. VHG 'značajno nadmašuje sve baseline metode jasno' u objema domenama, demonstrirajući prenosivost pristupa.

arXiv:2605.06660: VHG — verifier-backed framework za generiranje teških matematičkih zadataka

Što je problem koji VHG rješava?

Three-party self-play s verifikatorom

Rezultati i implikacije

Česta pitanja

Izvori

Povezane vijesti