Koje četiri osi kontrole Simula koristi?

Globalna diverzifikacija (hijerarhijske taksonomije), lokalna diverzifikacija (meta-promptovi), kompleksifikacija (nezavisna kontrola težine) i kontrola kvalitete (dual-critic petlja).

Koji su Googleovi proizvodi već pokretani Simulom?

ShieldGemma, FunctionGemma, MedGemma, Gemini safety klasifikatori (on-device i server-side), detekcija prevara za Android pozive i spam filteri u Google Messagesima.

Koju arhitekturu koristi sustav?

Gemini 2.5 Flash kao teacher model za generiranje podataka i Gemma-3 4B kao student model za treniranje. Evaluacija koristi Taxonomic Coverage i Calibrated Complexity Scoring kroz LLM-driven batch usporedbe s Elo ratinzima.

Google Simula: sinteza podataka kao mehanizam dizajna umjesto sample-po-sample optimizacije

Google Research objavio je 16. travnja 2026. detaljni tehnički post o frameworku Simula — sustavu za generiranje sintetičkih podataka koji temeljno mijenja način na koji se pristupa problemu nedostatka podataka u specijaliziranim AI primjenama. Autori Tim R. Davidson i Hamza Harkous argumentiraju da se problem mora reframeati “sa razine uzorka na razinu mehanizma”.

Zašto mehanizam dizajna, a ne optimizacija uzoraka?

Tradicionalni pristupi sintetičkim podacima optimiziraju pojedinačne primjere — bolji prompt, bolja temperatura, bolji filter. Autori argumentiraju da to ne skalira za domene gdje podataka prirodno nema (regulirana polja, novi specijalizirani zadaci, privatno osjetljive primjene).

Simula umjesto toga dizajnira mehanizam koji kontrolira distribuciju generiranih podataka na više osi odjednom. Rezultat je da praktičari mogu podešavati “kako izgleda dataset” kao što bi dizajnirali arhitekturu — s eksplicitnim parametrima umjesto pokušaja-i-pogreške.

Četiri osi kontrole

Framework dekomponira generiranje u četiri nezavisne dimenzije:

Globalna diverzifikacija koristi reasoning modele za izgradnju hijerarhijskih taksonomija koje mapiraju konceptualni prostor domene. Te taksonomije služe kao “sampling scaffolds” (skela za uzorkovanje) i osiguravaju pokrivenost long-tail distribucije umjesto gomilanja oko najčešćih slučajeva.

Lokalna diverzifikacija koristi meta-promptove izvedene iz čvorova taksonomije, generirajući više različitih instancija unutar iste teme kako bi spriječila mode collapse — pojavu da model ponavlja varijacije istog uzorka.

Kompleksifikacija tretira težinu kao ortogonalnu os, omogućujući pomak distribucije težine dataseta bez promjene semantičke pokrivenosti. Praktičari tako mogu generirati jednostavne i složene varijante iste teme.

Kontrola kvalitete radi kroz dual-critic loop — dva nezavisna verifikatora koji smanjuju LLM sycophancy i osiguravaju kvalitetne oznake.

Tehnička arhitektura i evaluacija

Sustav koristi Gemini 2.5 Flash kao teacher model za generiranje i Gemma-3 4B kao student model za trening. Evaluacija se oslanja na metrike Taxonomic Coverage i Calibrated Complexity Scoring, pri čemu potonje dodjeljuje Elo rating svakom primjeru kroz LLM batch usporedbe.

Testovi su pokriveni kroz pet domena: kibernetičku sigurnost (CTI-MCQ, CTI-RCM), pravno rezoniranje (LEXam), matematiku (GSM8k) i višejezično znanje (Global MMLU). Generirani datasetovi imali su do 512.000 primjera po domeni.

Zanimljiv nalaz: visoka kompleksnost povećava matematičku točnost za 10%, ali degradira pravno rezoniranje. Autori to tumače kao dokaz da “nema jedinstvenog optimalnog recepta” — svaka domena traži svoj miks osi.

Već u produkciji kroz Google ekosustav

Simula nije eksperimentalni projekt. Post otkriva da već pokreće:

Specijalizirane modele: ShieldGemma, FunctionGemma, MedGemma
Safety infrastrukturu: primarni backbone za Gemini safety klasifikatore (on-device i server-side)
Zaštitu korisnika: AI detekciju prevara u Android telefonskim pozivima i spam filter u Google Messagesima
Enterprise sigurnost: okvire koji demokratiziraju ML kroz realistične sintetičke scenarije napada

Ova objava signalizira da je Google sinternu sintetičku infrastrukturu doveo na razinu first-class AI primitive — tretira je jednako ozbiljno kao arhitekturu modela ili hardverski stack.

Google Simula: sinteza podataka kao mehanizam dizajna umjesto sample-po-sample optimizacije

Zašto mehanizam dizajna, a ne optimizacija uzoraka?

Četiri osi kontrole

Tehnička arhitektura i evaluacija

Već u produkciji kroz Google ekosustav

Izvori

Povezane vijesti