🤖 24 AI
🟢 🤝 Agenten Dienstag, 21. April 2026 · 2 Min. Lesezeit

NVIDIA veröffentlicht Nemotron-Personas-Korea: 7 Millionen synthetische Personas für koreanische KI-Agenten

Editorial illustration: NVIDIA veröffentlicht Nemotron-Personas-Korea: 7 Millionen synthetische Personas für koreanische KI-Agenten

Warum es wichtig ist

NVIDIA hat gemeinsam mit Partnern den Open-Source-Datensatz Nemotron-Personas-Korea mit 7 Millionen synthetischen Personas veröffentlicht, die auf offiziellen koreanischen Demografiedaten basieren. Ziel ist es, die Entwicklung kulturell bewusster KI-Agenten ohne Datenschutzrisiken zu ermöglichen.

NVIDIA hat in Zusammenarbeit mit NAVER Cloud einen neuen Open-Source-Datensatz Nemotron-Personas-Korea veröffentlicht, der sieben Millionen synthetische Personas enthält, die auf offiziellen koreanischen Demografiedaten basieren. Der Datensatz wird unter einer CC-BY-4.0-Lizenz auf HuggingFace veröffentlicht und ist Teil des umfassenderen Nemotron-Ökosystems für die Entwicklung agentischer KI-Systeme. Die Ankündigung ist auf die NVIDIA Nemotron Developer Days in Seoul (21.–22. April 2026) abgestimmt.

Warum sind kulturspezifische Personas für Agenten entscheidend?

Generische LLMs schneiden häufig in Bereichen schlecht ab, die lokales Verständnis erfordern — Kundenservice, Bildungsagenten, öffentliche Dienste oder Gesundheitsberatung. Koreanisch verwendet beispielsweise komplexe formale Register (존댓말, d. h. Honorifik-Strukturen), die für die professionelle Kommunikation unerlässlich sind. Ausschließlich auf englischen Daten trainierte Agenten produzieren ungeschickte oder gar beleidigende Antworten. Nemotron-Personas-Korea deckt alle 17 koreanischen Provinzen und 25 Bezirke ab, enthält etwa 209.000 einzigartige Namen, mehr als 2.000 Berufskategorien und sieben Persona-Typen — beruflich, familiär, sportlich, künstlerisch, Reise, kulinarisch und zusammenfassend. Entwickler können Personas in den System-Prompt eines Agenten laden und ihn damit sofort im koreanischen Kontext verankern.

Wie schützen 7 Millionen synthetische Personas die Privatsphäre?

Der Datensatz ist vollständig synthetisch — er enthält keine realen personenbezogenen Daten (PII). Er wurde mithilfe von NVIDIAs Open-Source-Plattform NeMo Data Designer, einem probabilistischen grafischen Modell (Apache 2.0) für statistische Verankerung, und dem Modell Gemma-4-31B für die Generierung koreanischer Narrative erstellt. Die zugrundeliegenden statistischen Eingaben stammen aus offiziellen Quellen: dem Koreanischen Statistischen Informationsdienst (KOSIS) für Bevölkerungsdaten 2020–2026, dem Obersten Gericht Koreas für Namensverteilung, dem Nationalen Krankenversicherungsdienst sowie dem Koreanischen Institut für Ländliche Wirtschaft. Der Ansatz entspricht dem koreanischen Gesetz zum Schutz personenbezogener Daten (PIPA) und den offiziellen Leitlinien für synthetische Daten der Datenschutzbehörde.

Wie fügt sich Nemotron-Personas-Korea in das breitere NVIDIA-Ökosystem ein?

Der koreanische Datensatz ist Teil der umfassenderen Nemotron-Personas-Sammlung, die bereits Versionen für die USA, Japan, Indien, Singapur (in Partnerschaft mit AI Singapore), Brasilien (mit WideLabs) und Frankreich (mit Pleias) umfasst. NVIDIA bietet Entwicklern drei Wege in die Produktion: den NVIDIA API Catalog (eine OpenAI-kompatible Schnittstelle für schnelles Testen), NVIDIA NIM Microservices für Self-Hosted-Inferenz und den Open-Source-NemoClaw-Referenz-Stack für Always-On-Agenten. Die Ankündigung schließt logisch an die Morgenmeldungen über NVIDIAs Partnerschaften mit Adobe und WPP über die Openshell-Plattform an — zusammen demonstrieren sie eine konsequente Strategie, NVIDIA nicht nur als Hardware-Lieferant, sondern als Schlüsselanbieter von Open-Source-Tools für den gesamten Agenten-Lebenszyklus zu positionieren. Für Entwickler in kleineren Märkten könnte dieses Partnerschaftsmodell mit lokalen Cloud-Anbietern und Statistikbehörden als Blaupause für zukünftige lokalisierte Datensätze dienen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.