Treniranje
Sintetički podaci
Umjetno generirani podaci — od modela ili simulacije — koji nadopunjuju ili zamjenjuju ljudske podatke pri treniranju i evaluaciji AI modela.
Sintetički podaci (synthetic data) su umjetno generirani podaci koji oponašaju obrasce stvarnih podataka, a ne nastaju iz stvarnih događaja. Stvaraju ih algoritmi, simulacije ili sami AI modeli, a koriste se za nadopunu ili potpunu zamjenu skupova prikupljenih od ljudi pri treniranju i evaluaciji.
U današnjoj praksi najjači model (“učitelj”) generira upite, odgovore ili oznake na kojima se trenira drugi model — pristup blizak distilaciji znanja. Tako se proizvode podaci za fino podešavanje, korpusi za rezoniranje s lancem misli te parovi preferencija za RLHF. Simulacije i procedurna generacija dodatno popunjavaju rijetke ili privatnošću osjetljive scenarije, s točnijim oznakama nego ručno označavanje.
Tema je vrlo aktualna 2025.–2026. jer se zaliha visokokvalitetnog ljudskog teksta na webu iscrpljuje (“zid podataka”). Istraživanja upozoravaju na rizik kolapsa modela kada se model uči pretežno na vlastitim izlazima, pa se naglašava važnost činjeničnosti, vjernosti i nepristranosti, uz primjesu stvarnih podataka radi sidrenja u stvarnost.