Autodata: agentski data scientist (Meta FAIR)

Autodata je sustav Meta FAIR-a u kojem AI agenti preuzimaju ulogu data scientista i autonomno grade visokokvalitetne sintetičke skupove podataka. Metoda Agentic Self-Instruct meta-optimizira samog agenta, a testirane domene — CS istraživanje, pravni i matematički reasoning — pokazuju konzistentan uplift nad statičkim baselineima.

Autodata: kad AI agent postane data scientist

Istraživači Meta FAIR-a objavili su 24. lipnja 2026. rad koji mijenja pristup jednom od najvećih uskih grla u razvoju AI sustava — stvaranju dovoljno kvalitetnih podataka za treniranje. Sustav nazvan Autodata ne traži od ljudi da ručno pripremaju skupove za obučavanje; umjesto toga, AI agenti preuzimaju ulogu data scientista — stručnjaka koji planira, gradi i iterativno poboljšava skup podataka — i taj posao obavljaju autonomno.

Rad potpisuju 15 autora uključujući Jasona Westona i Sainbayara Sukhbaatara (Meta FAIR), a arxiv ID je 2606.25996.

Što su sintetički podaci i zašto ih je teško dobro napraviti?

Sintetički podaci su primjeri koje generira računalni sustav umjesto da ih prikuplja od ljudi. Privlačni su zbog niske cijene i mogućnosti da pokriju rubne scenarije kojih u stvarnom svijetu nema dovoljno. Međutim, loše generirani sintetički podaci mogu pogoršati model — takozvani „model collapse” pojavljuje se kad model trenira na vlastitim izlazima bez kontrole kvalitete. Upravo tu Autodata uvodi ključnu razliku.

Kako funkcionira Agentic Self-Instruct?

Srce sustava je metoda Agentic Self-Instruct — meta-optimizacijska petlja u kojoj agent ne samo generira podatke, nego i analizira vlastitu izvedbu i prilagođava strategiju generiranja. Za razliku od klasičnih statičkih baseline metoda koje podatke stvaraju prema fiksnom predlošku, Autodata u svakoj iteraciji uči što je dovelo do boljeg ili lošijeg rezultata i taj uvid ugrađuje u sljedeći ciklus. Rezultat su progresivno kvalitetniji skupovi — bez dodatnog ljudskog nadzora.

Testirane domene i rezultati

Istraživači su Autodata testirali u tri zahtjevne domene:

CS istraživanje — generiranje podataka za zadatke koji zahtijevaju razumijevanje znanstvenih radova
Pravni reasoning — složeni scenariji pravnog zaključivanja gdje pogreška ima visoku cijenu
Matematički reasoning — formalni dokazi i rješavanje problema

U svim trima domenama meta-optimizacija Agentic Self-Instruct pristupom donijela je konzistentan uplift nad statičkim baselineima — metodama koje generiraju podatke bez iterativne povratne sprege. Rad ne navodi jedinstven prosječni broj, no daje do znanja da su razlike najizraženije u domenama koje zahtijevaju dugi lanac zaključivanja, gdje statički pristupi gube raznolikost primjera s napretkom težine.

Šire implikacije: compute-time vs. data-time

Autodata je dio šire paradigme u kojoj se dodatna računalna snaga ulaže ne samo u inference (generiranje odgovora), nego i u pripremu podataka. Umjesto da tim podatkovnih inženjera godinama prikuplja i označava primjere, agent to radi autonomno i skalabilno. Za organizacije koje nemaju pristup milijardama označenih primjera — a to je većina istraživačkih institucija i startupa — ovakav pristup potencijalno izjednačava uvjete s dobro financiranim laboratorijima koji mogu priuštiti masovnu anotaciju.

Dostupnost

Rad je predan 24. lipnja 2026. i dostupan je na arXiv-u (2606.25996). Implementacijski detalji i eventualno objavljivanje koda nisu navedeni u trenutno dostupnoj verziji rada.

Česta pitanja

Što su sintetički podaci i zašto su važni za treniranje AI modela?

Sintetički podaci su primjeri koje generira računalni sustav, a ne prikuplja od ljudi — jeftiniji su, skalabilniji i mogu pokriti rubne slučajeve koji u stvarnom svijetu nisu dovoljno zastupljeni. Za treniranje modernih LLM-ova, kvaliteta i raznolikost sintetičkih podataka izravno određuje sposobnost modela.

Što je Agentic Self-Instruct i po čemu se razlikuje od standardnog Self-Instruct pristupa?

Standardni Self-Instruct generira instrukcije jednokratno prema fiksnom predlošku, dok Agentic Self-Instruct uvodi meta-optimizacijsku petlju u kojoj agent kontinuirano poboljšava vlastitu strategiju generiranja podataka — rezultat su progresivno kvalitetniji skupovi pri svakoj iteraciji.

arXiv:2606.25996: Autodata — agentski data scientist koji stvara visokokvalitetne sintetičke podatke (Meta FAIR)