Google Research: ConvApparel dataset mjeri 'realism gap' između AI user simulatora i pravih ljudi

Google Research objavio je ConvApparel, novi dataset i evaluacijski framework koji adresira jedan često ignoriran problem AI razvoja: LLM user simulatori se ponašaju neuvjerljivo. Kada se AI agenti treniraju isključivo na razgovorima s tim umjetnim “korisnicima”, padaju kad se konačno suoče s pravim ljudima.

Što je problem

Kada se trenira chatbot ili AI agent, treba mu netko s kim će razgovarati. Trening na pravim korisnicima je skup i spor, pa je standardna praksa korištenje LLM-a kao simuliranog korisnika — drugi LLM glumi krajnjeg korisnika i razgovara s agentom u trening loop-u. Ali ti simulirani “korisnici” pokazuju karakteristike koje stvarni ljudi rijetko imaju: pretjerana detaljnost u odgovorima, perfektna konzistentnost personalitija, neograničeno strpljenje, enciklopedijsko znanje. Rezultat: agent koji odlično radi u testu može se srušiti čim mu se javi netko sa stvarnog interneta.

Kako su to mjerili

Dataset sadrži preko 4.000 multi-turn razgovora u scenariju kupovine odjeće. Korišten je dual-agent protokol gdje sudionici nesvjesno razgovaraju s “Good” (koristan) ili “Bad” (nekoristan) agentom — što je dalo prirodne varijacije od zadovoljstva do frustracije. Framework koristi tri provjere: statistička poravnanja na razini populacije, human-likeness scoring (treniran diskriminator koji pokušava prepoznati sintetičke razgovore), i counterfactual validation — jesu li simulatori trenirani samo na “good” agent podacima sposobni realistično reagirati na frustriranjajuće “bad” agente?

Rezultati i ono što ostaje

Discriminatori su pouzdano detektirali simulirane razgovore kao sintetičke — što potvrđuje da problem stvarno postoji. Data-driven simulatori (ICL in-context learning i SFT supervised fine-tuning) značajno su nadmašili obični prompting na statističkom poravnanju. Najzanimljivije: SFT i ICL simulatori pokazali su “remarkable out-of-distribution generalization” — uspješno su se prilagodili frustrirajućim agentima koje nikada nisu vidjeli tijekom treninga.

Otvoreno pitanje: koja je minimalna razina realizma potrebna da agent treniran na simulatoru radi u produkciji? Google poziva na buduće real-world validacijske studije.

Google Research: ConvApparel dataset mjeri 'realism gap' između AI user simulatora i pravih ljudi

Što je problem

Kako su to mjerili

Rezultati i ono što ostaje

Izvori

Povezane vijesti