Synthetische Daten

Synthetische Daten (synthetic data) sind künstlich erzeugte Daten, die die Muster realer Daten nachahmen, statt aus realen Ereignissen zu stammen. Sie werden von Algorithmen, Simulationen oder den KI-Modellen selbst produziert und dienen dazu, von Menschen gesammelte Datensätze beim Training und bei der Evaluierung zu ergänzen oder vollständig zu ersetzen.

In der heutigen Praxis erzeugt ein starkes „Teacher”-Modell Anfragen, Antworten oder Labels, auf denen ein anderes Modell trainiert wird — ein Ansatz, der eng mit der Wissensdestillation verwandt ist. So entstehen Daten für Fine-Tuning, Korpora für Chain-of-Thought-Reasoning sowie Präferenzpaare für RLHF. Simulationen und prozedurale Generierung füllen zudem seltene oder datenschutzsensible Szenarien, oft mit genaueren Labels als manuelle Annotation.

Das Thema ist 2025–2026 besonders aktuell, da der Vorrat an hochwertigem menschlichem Webtext zur Neige geht (die „Datenmauer”). Forschung warnt vor dem Modellkollaps, wenn ein Modell überwiegend auf seinen eigenen Ausgaben trainiert wird; daher betont man Faktentreue, Fidelität und Unvoreingenommenheit und mischt reale Daten bei, um die Modelle in der Realität zu verankern.

Quellen

Siehe auch