NVIDIA objavila Nemotron-Personas-Korea: 7 milijuna sintetičkih persona za korejske AI agente
Zašto je bitno
NVIDIA je uz partnere pustila open-source dataset Nemotron-Personas-Korea sa 7 milijuna sintetičkih persona utemeljenih u službenim korejskim demografskim podacima. Cilj je omogućiti razvoj kulturno svjesnih AI agenata bez rizika za privatnost.
NVIDIA je u suradnji s NAVER Cloudom objavila novi open-source dataset Nemotron-Personas-Korea, koji sadrži sedam milijuna sintetičkih persona utemeljenih u službenim korejskim demografskim podacima. Dataset je objavljen pod CC BY 4.0 licencom na HuggingFaceu i predstavlja dio širega Nemotron ekosustava namijenjenog razvoju agentic AI sustava. Najava je tempirana uz NVIDIA Nemotron Developer Days u Seulu (21.–22. travnja 2026.).
Zašto su kulturno specifične persone ključne za agente?
Generički LLM-ovi često podbacuju u domenama koje zahtijevaju lokalno razumijevanje — customer service, obrazovni agenti, javne usluge ili zdravstveno savjetovanje. Korejski jezik, primjerice, koristi složene formalne registre (존댓말, odnosno honorifičke strukture) koje su ključne za profesionalnu komunikaciju. Agenti trenirani isključivo na engleskim podacima proizvode nespretne ili čak uvredljive odgovore. Nemotron-Personas-Korea pokriva svih 17 korejskih provincija i 25 okruga, sadrži oko 209 tisuća jedinstvenih imena, preko 2000 kategorija zanimanja te sedam tipova persona — profesionalne, obiteljske, sportske, umjetničke, putničke, kulinarske i sažete. Razvijatelji mogu persone učitati u sistemski prompt agenta i time ga trenutno ugraditi u korejski kontekst.
Kako 7 milijuna sintetičkih persona čuva privatnost?
Dataset je u potpunosti sintetički — ne sadrži nijedan stvarni osobni podatak (PII). Generiran je korištenjem NVIDIA-ine open-source platforme NeMo Data Designer, probabilističkog grafičkog modela (Apache-2.0) za statističko utemeljenje, te modela Gemma-4-31B za generiranje korejske naracije. Temeljni statistički ulazi dolaze iz službenih izvora: Korejske statističke službe (KOSIS) za populacijske podatke 2020.–2026., Vrhovnog suda Koreje za distribuciju imena, Nacionalne službe za zdravstveno osiguranje te Korejskoga instituta za ruralno gospodarstvo. Pristup je usklađen s korejskim Zakonom o zaštiti osobnih podataka (PIPA) i službenim smjernicama za sintetičke podatke koje je izdala Komisija za zaštitu osobnih podataka.
Gdje se Nemotron-Personas-Korea uklapa u širi NVIDIA ekosustav?
Korejski dataset dio je šire Nemotron-Personas kolekcije koja već uključuje verzije za SAD, Japan, Indiju, Singapur (u partnerstvu s AI Singapore), Brazil (s WideLabs) i Francusku (s Pleias). NVIDIA razvijateljima nudi tri puta do produkcije: NVIDIA API Catalog (OpenAI-kompatibilno sučelje za brzo testiranje), NVIDIA NIM mikroservise za self-hosted inferenciju, te open-source NemoClaw referentni stack za always-on agente. Najava se logički nastavlja na jutrošnje vijesti o NVIDIA-inim partnerstvima s Adobeom i WPP-om kroz platformu Openshell — zajedno pokazuju dosljednu strategiju pozicioniranja NVIDIA-e ne samo kao dobavljača hardvera, već i kao ključnog pružatelja open-source alata za cijeli životni ciklus agenata. Za developere u manjim tržištima poput hrvatskog, ovaj model partnerstva s lokalnim cloud providerima i statističkim uredima mogao bi poslužiti kao blueprint za buduće lokalizirane datasete.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic: Memory za Managed Agents u javnoj beti — AI agenti koji pamte kontekst između sesija
GitHub: Cloud agent sesije sada dostupne izravno iz issues i project pogleda
ArXiv SWE-chat — dataset stvarnih interakcija developera s AI coding agentima u produkciji