ArXiv: AAAI-26 proveo AI recenzije na 22.977 radova — recenzenti ih ocijenili bolje od ljudskih
Zašto je bitno
AAAI-26 je provela prvi eksperiment AI-asistiranih recenzija na konferencijskoj skali — svih 22.977 prijavljenih radova dobilo je jednu jasno označenu AI-generiranu recenziju uz ljudske. Članovi programskog odbora ocijenili su AI recenzije višom ocjenom od ljudskih za tehničku točnost i istraživačke prijedloge.
Što se točno dogodilo na AAAI-26?
AAAI-26 (Association for the Advancement of Artificial Intelligence) — jedna od najvažnijih svjetskih konferencija za umjetnu inteligenciju — provela je eksperiment bez presedana. Svih 22.977 prijavljenih radova u glavnoj sekciji dobilo je jednu AI-generiranu recenziju uz standardne ljudske recenzije. AI recenzije bile su jasno označene kako bi recenzenti i autori znali da dolaze od stroja.
Sustav je koristio napredne jezične modele (LLM-ove) s integracijom alata i sigurnosnim mjerama, a sve recenzije generirane su unutar jednog dana — drastično brže od ljudskog procesa koji obično traje tjednima.
Iznenađujući rezultat: AI nadmašio ljude
Prema anketi među članovima programskog odbora i autorima radova, AI recenzije su ocijenjene višom ocjenom od ljudskih u dvije ključne kategorije: tehnička točnost i kvaliteta istraživačkih prijedloga.
To ne znači da su AI recenzije savršene ili da mogu zamijeniti ljudske recenzente. Eksperiment je dizajniran kao dopuna, ne zamjena — svaki rad i dalje prolazi kroz standardni ljudski review proces. No, činjenica da su sudionici smatrali AI povratne informacije korisnijima nego prosječnu ljudsku recenziju otvara važna pitanja o budućnosti akademskog izdavaštva.
Istraživači su također razvili novi evaluacijski benchmark koji pokazuje da sustav značajno nadmašuje bazični LLM pristup u identificiranju znanstvenih slabosti — što sugerira da specijalizirani pristup s alatima daje bolje rezultate od jednostavnog slanja rada jezičnom modelu.
Zašto je ovo važno za akademsku zajednicu?
Akademsko izdavaštvo suočava se s rastućim problemom: broj prijava na konferencije eksponencijalno raste, dok broj kvalificiranih recenzenata ne drži korak. Rezultat su površne recenzije, dugačka čekanja i nekonzistentni standardi.
AI recenzije ne rješavaju problem u potpunosti, ali mogu služiti kao prvi filter koji autorima daje brzu, tehničku povratnu informaciju dok čekaju ljudske recenzije. Za programske odbore, AI može identificirati očite probleme u radovima — od matematičkih grešaka do nedostajućih referenci — oslobađajući ljudske recenzente za dublje analitičke zadatke.
Autori rada — Joydeep Biswas, Sheila Schoepp i Gautham Vasan — zaključuju da “state-of-the-art AI metode već sada mogu značajno doprinijeti znanstvenoj recenziji na konferencijskoj skali”, usmjeravajući buduća istraživanja prema poboljšanoj suradnji čovjeka i AI-ja u evaluaciji istraživanja.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
QIMMA: novi leaderboard donosi kvalitetu prije kvantitete u evaluaciji arapskih LLM-ova
Apple na ICLR 2026 u Riju: preko 40 postera, MLX demo na iPad Pro, SHARP 3D generacija i MANZANO unified model
IBM i UIUC produžili AI+Quantum partnerstvo na pet godina: 20 projekata i 230 radova