AI Auto-Research: Roadmap i granice frontier LLM-ova

arXiv paper 2605.18661 istraživača s NUS-a i NTU-a analizira sustave koji autonomno generiraju istraživačke papere za svega 15 dolara. Ključni nalaz: frontier LLM-ovi fabriciraju rezultate i pouzdano ne ocjenjuju novost ideja. Sveobuhvatni roadmap definira granice između pouzdane asistencije i nesigurne AI autonomije.

Istraživači s National University of Singapore (NUS) i Nanyang Technological University (NTU) objavili su sveobuhvatan pregled stanja auto-research sustava — AI platformi koje bez stalnog ljudskog nadzora generiraju potpune istraživačke papere. Rad arXiv:2605.18661, s 20 koautora, donosi roadmap, benchmark-suite, inventar alata i praktični vodič za primjenu.

Što je auto-research i koliko danas košta?

Auto-research označava klasu AI agenata koji autonomno provode cijeli istraživački ciklus: generiraju ideje, pretražuju literaturu, pišu i izvršavaju eksperimentalni kod, vizualiziraju rezultate te sastavljaju rukopis. Autori naglašavaju da su takvi sustavi dostigli razinu na kojoj se čitav ciklus može izvesti za svega 15 dolara — što demokratizira pristup, ali otvara ozbiljna pitanja integriteta.

Roadmap dijeli istraživački životni ciklus na četiri faze: kreacija (ideacija, pregled literature, kodiranje, eksperimenti), pisanje rukopisa, validacija (peer-review, odgovori na recenzije) te diseminacija (posteri, prezentacije, društvene mreže).

Zašto frontier LLM-ovi nisu dovoljno pouzdani za autonomno istraživanje?

Kritičan nalaz rada je jasan: frontier LLM-ovi — najnapredniji dostupni jezični modeli — i dalje fabriciraju rezultate, propuštaju skrivene greške i ne ocjenjuju novost pouzdano. Istraživanje identificira oštrу granicu između faza u kojima AI pruža pouzdanu asistenciju i onih u kojima autonomija postaje rizična. Generiranje ideja degradira nakon implementacije, istraživački kod tipično podperformira benchmark-ove, a autonomni sustavi još nisu dosljedno postigli prihvaćanje na prestižnim konferencijama.

Konkretno: kada model ne može pronaći dostatne podatke u svom treniranju, može generirati uvjerljive, ali izmišljene numeričke vrijednosti ili bibliografske reference — tzv. fabrication — što je u akademskom kontekstu posebno opasno jer prolazi neopaženo kroz površne provjere.

Koji model suradnje preporučuju autori?

Rad zaključuje da je human-governed collaboration — suradnja u kojoj AI preuzima strukturirane, alatno-posredovane zadatke dok čovjek zadržava nadzor nad ključnim znanstvenim procjenama — najpouzdanija paradigma za auto-research. AI agenti pokazuju visoku pouzdanost u zadacima poput pretraživanja literature i generiranja koda za poznate probleme, ali ostaju nepouzdani za procjenu originalnosti i kreativno zaključivanje na granicama znanja.

Osim roadmapa, autori objavljuju benchmark-suite i inventar alata kao otvorene resurse za istraživačku zajednicu, čime postavljaju metodološki okvir za daljnje istraživanje granica AI autonomije u znanosti.

Česta pitanja

Što je auto-research i što znači generiranje papera za 15 dolara?

Auto-research označava potpuno automatiziranu izradu istraživačkih radova — od ideje do rukopisa — bez ili s minimalnim ljudskim nadzorom. Sustavi temeljeni na frontier LLM-ovima danas mogu proći taj ciklus za svega 15 dolara, ali pouzdanost i integritet rezultata ostaju upitni.

Zašto frontier LLM-ovi fabriciraju rezultate u istraživačkom kontekstu?

Frontier LLM-ovi su optimizirani za koherentnost teksta, ne za faktičku ispravnost novih eksperimenata. Kad model ne pronađe dovoljno podataka u treniranju, može generirati uvjerljive ali izmišljene vrijednosti ili citate — tzv. halucinacije — posebno problematične u akademskim kontekstima gdje se ne može odmah verificirati svaki podatak.

Koji je preporučeni model suradnje čovjeka i AI-ja u istraživanju?

Autori zaključuju da je human-governed collaboration — model u kojem AI pruža asistenciju, a čovjek zadržava nadzor nad ključnim odlukama — najpouzdanija paradigma. AI se pokazao snažnim za strukturirane, alatno-posredovane zadatke, ali nedovoljno pouzdanim za ocjenu novosti i kreativno zaključivanje.

arXiv:2605.18661: AI za automatsko istraživanje — Roadmap i korisnički vodič

Što je auto-research i koliko danas košta?

Zašto frontier LLM-ovi nisu dovoljno pouzdani za autonomno istraživanje?

Koji model suradnje preporučuju autori?

Česta pitanja

Izvori

Povezane vijesti