arXiv:2606.25996: Autodata — agentski data scientist koji stvara visokokvalitetne sintetičke podatke (Meta FAIR)
Autodata je sustav Meta FAIR-a u kojem AI agenti preuzimaju ulogu data scientista i autonomno grade visokokvalitetne sintetičke skupove podataka. Metoda Agentic Self-Instruct meta-optimizira samog agenta, a testirane domene — CS istraživanje, pravni i matematički reasoning — pokazuju konzistentan uplift nad statičkim baselineima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Autodata: kad AI agent postane data scientist
Istraživači Meta FAIR-a objavili su 24. lipnja 2026. rad koji mijenja pristup jednom od najvećih uskih grla u razvoju AI sustava — stvaranju dovoljno kvalitetnih podataka za treniranje. Sustav nazvan Autodata ne traži od ljudi da ručno pripremaju skupove za obučavanje; umjesto toga, AI agenti preuzimaju ulogu data scientista — stručnjaka koji planira, gradi i iterativno poboljšava skup podataka — i taj posao obavljaju autonomno.
Rad potpisuju 15 autora uključujući Jasona Westona i Sainbayara Sukhbaatara (Meta FAIR), a arxiv ID je 2606.25996.
Što su sintetički podaci i zašto ih je teško dobro napraviti?
Sintetički podaci su primjeri koje generira računalni sustav umjesto da ih prikuplja od ljudi. Privlačni su zbog niske cijene i mogućnosti da pokriju rubne scenarije kojih u stvarnom svijetu nema dovoljno. Međutim, loše generirani sintetički podaci mogu pogoršati model — takozvani „model collapse” pojavljuje se kad model trenira na vlastitim izlazima bez kontrole kvalitete. Upravo tu Autodata uvodi ključnu razliku.
Kako funkcionira Agentic Self-Instruct?
Srce sustava je metoda Agentic Self-Instruct — meta-optimizacijska petlja u kojoj agent ne samo generira podatke, nego i analizira vlastitu izvedbu i prilagođava strategiju generiranja. Za razliku od klasičnih statičkih baseline metoda koje podatke stvaraju prema fiksnom predlošku, Autodata u svakoj iteraciji uči što je dovelo do boljeg ili lošijeg rezultata i taj uvid ugrađuje u sljedeći ciklus. Rezultat su progresivno kvalitetniji skupovi — bez dodatnog ljudskog nadzora.
Testirane domene i rezultati
Istraživači su Autodata testirali u tri zahtjevne domene:
- CS istraživanje — generiranje podataka za zadatke koji zahtijevaju razumijevanje znanstvenih radova
- Pravni reasoning — složeni scenariji pravnog zaključivanja gdje pogreška ima visoku cijenu
- Matematički reasoning — formalni dokazi i rješavanje problema
U svim trima domenama meta-optimizacija Agentic Self-Instruct pristupom donijela je konzistentan uplift nad statičkim baselineima — metodama koje generiraju podatke bez iterativne povratne sprege. Rad ne navodi jedinstven prosječni broj, no daje do znanja da su razlike najizraženije u domenama koje zahtijevaju dugi lanac zaključivanja, gdje statički pristupi gube raznolikost primjera s napretkom težine.
Šire implikacije: compute-time vs. data-time
Autodata je dio šire paradigme u kojoj se dodatna računalna snaga ulaže ne samo u inference (generiranje odgovora), nego i u pripremu podataka. Umjesto da tim podatkovnih inženjera godinama prikuplja i označava primjere, agent to radi autonomno i skalabilno. Za organizacije koje nemaju pristup milijardama označenih primjera — a to je većina istraživačkih institucija i startupa — ovakav pristup potencijalno izjednačava uvjete s dobro financiranim laboratorijima koji mogu priuštiti masovnu anotaciju.
Dostupnost
Rad je predan 24. lipnja 2026. i dostupan je na arXiv-u (2606.25996). Implementacijski detalji i eventualno objavljivanje koda nisu navedeni u trenutno dostupnoj verziji rada.
Česta pitanja
- Što su sintetički podaci i zašto su važni za treniranje AI modela?
- Sintetički podaci su primjeri koje generira računalni sustav, a ne prikuplja od ljudi — jeftiniji su, skalabilniji i mogu pokriti rubne slučajeve koji u stvarnom svijetu nisu dovoljno zastupljeni. Za treniranje modernih LLM-ova, kvaliteta i raznolikost sintetičkih podataka izravno određuje sposobnost modela.
- Što je Agentic Self-Instruct i po čemu se razlikuje od standardnog Self-Instruct pristupa?
- Standardni Self-Instruct generira instrukcije jednokratno prema fiksnom predlošku, dok Agentic Self-Instruct uvodi meta-optimizacijsku petlju u kojoj agent kontinuirano poboljšava vlastitu strategiju generiranja podataka — rezultat su progresivno kvalitetniji skupovi pri svakoj iteraciji.
Izvori
Povezane vijesti
Anthropic: Claude Code v2.1.193 — auto-mode klasifikator za shell naredbe i OpenTelemetry logiranje
LangChain: LangSmith Fleet On-Call Copilot, Computer Use i Deep Agents RubricMiddleware
OpenAI: kako agenti mijenjaju rad — Codex 5 milijuna tjednih korisnika, rast 400%