Što je sintetička persona?

Sintetička persona je umjetno generirani profil korisnika s imenom, zanimanjem, lokacijom i drugim atributima, ali bez ikakvih stvarnih osobnih podataka. Koristi se za treniranje i testiranje AI sustava bez rizika po privatnost.

Zašto su kulturno specifične persone važne za agente?

Generički agenti često ne razumiju lokalne jezične nijanse, formalne registre (poput korejskog존댓말) ili geografske i profesionalne kontekste. Kulturno utemeljene persone omogućuju fine-tuning koji proizvodi prirodnije i točnije odgovore za lokalne korisnike.

Nemotron-Personas-Korea: 7M sintetičkih persona za korejske agente

NVIDIA je u suradnji s NAVER Cloudom objavila novi open-source dataset Nemotron-Personas-Korea, koji sadrži sedam milijuna sintetičkih persona utemeljenih u službenim korejskim demografskim podacima. Dataset je objavljen pod CC BY 4.0 licencom na HuggingFaceu i predstavlja dio širega Nemotron ekosustava namijenjenog razvoju agentic AI sustava. Najava je tempirana uz NVIDIA Nemotron Developer Days u Seulu (21.–22. travnja 2026.).

Zašto su kulturno specifične persone ključne za agente?

Generički LLM-ovi često podbacuju u domenama koje zahtijevaju lokalno razumijevanje — customer service, obrazovni agenti, javne usluge ili zdravstveno savjetovanje. Korejski jezik, primjerice, koristi složene formalne registre (존댓말, odnosno honorifičke strukture) koje su ključne za profesionalnu komunikaciju. Agenti trenirani isključivo na engleskim podacima proizvode nespretne ili čak uvredljive odgovore. Nemotron-Personas-Korea pokriva svih 17 korejskih provincija i 25 okruga, sadrži oko 209 tisuća jedinstvenih imena, preko 2000 kategorija zanimanja te sedam tipova persona — profesionalne, obiteljske, sportske, umjetničke, putničke, kulinarske i sažete. Razvijatelji mogu persone učitati u sistemski prompt agenta i time ga trenutno ugraditi u korejski kontekst.

Kako 7 milijuna sintetičkih persona čuva privatnost?

Dataset je u potpunosti sintetički — ne sadrži nijedan stvarni osobni podatak (PII). Generiran je korištenjem NVIDIA-ine open-source platforme NeMo Data Designer, probabilističkog grafičkog modela (Apache-2.0) za statističko utemeljenje, te modela Gemma-4-31B za generiranje korejske naracije. Temeljni statistički ulazi dolaze iz službenih izvora: Korejske statističke službe (KOSIS) za populacijske podatke 2020.–2026., Vrhovnog suda Koreje za distribuciju imena, Nacionalne službe za zdravstveno osiguranje te Korejskoga instituta za ruralno gospodarstvo. Pristup je usklađen s korejskim Zakonom o zaštiti osobnih podataka (PIPA) i službenim smjernicama za sintetičke podatke koje je izdala Komisija za zaštitu osobnih podataka.

Gdje se Nemotron-Personas-Korea uklapa u širi NVIDIA ekosustav?

Korejski dataset dio je šire Nemotron-Personas kolekcije koja već uključuje verzije za SAD, Japan, Indiju, Singapur (u partnerstvu s AI Singapore), Brazil (s WideLabs) i Francusku (s Pleias). NVIDIA razvijateljima nudi tri puta do produkcije: NVIDIA API Catalog (OpenAI-kompatibilno sučelje za brzo testiranje), NVIDIA NIM mikroservise za self-hosted inferenciju, te open-source NemoClaw referentni stack za always-on agente. Najava se logički nastavlja na jutrošnje vijesti o NVIDIA-inim partnerstvima s Adobeom i WPP-om kroz platformu Openshell — zajedno pokazuju dosljednu strategiju pozicioniranja NVIDIA-e ne samo kao dobavljača hardvera, već i kao ključnog pružatelja open-source alata za cijeli životni ciklus agenata. Za developere u manjim tržištima poput hrvatskog, ovaj model partnerstva s lokalnim cloud providerima i statističkim uredima mogao bi poslužiti kao blueprint za buduće lokalizirane datasete.

NVIDIA objavila Nemotron-Personas-Korea: 7 milijuna sintetičkih persona za korejske AI agente

Zašto su kulturno specifične persone ključne za agente?

Kako 7 milijuna sintetičkih persona čuva privatnost?

Gdje se Nemotron-Personas-Korea uklapa u širi NVIDIA ekosustav?

Izvori

Povezane vijesti