합성 데이터 (synthetic data)

**합성 데이터 (synthetic data)**는 실제 사건에서 생기는 것이 아니라 실제 데이터의 패턴을 모방하도록 인공적으로 생성된 데이터입니다. 알고리즘, 시뮬레이션, 또는 AI 모델 자체가 만들어 내며, 모델을 훈련하고 평가할 때 사람이 수집한 데이터셋을 보완하거나 완전히 대체하는 데 사용됩니다.

오늘날 실무에서는 강력한 “교사” 모델이 프롬프트, 답변, 레이블을 생성하고 이를 다른 모델이 학습합니다 — 이는 지식 증류와 밀접하게 관련된 방식입니다. 이렇게 파인튜닝용 데이터, 사고 연쇄 추론 코퍼스, RLHF용 선호 쌍을 얻습니다. 시뮬레이션과 절차적 생성은 희소하거나 프라이버시에 민감한 시나리오를 채우며, 수작업 주석보다 더 정확한 레이블을 다는 경우가 많습니다.

이 주제는 고품질 인간 웹 텍스트의 공급이 고갈되면서(“데이터 장벽”) 2025–2026년에 특히 활발히 논의됩니다. 연구는 모델을 주로 자신의 출력으로 훈련하면 모델 붕괴가 일어난다고 경고하며, 사실성·충실도·무편향성을 강조하고 현실에 닻을 내리기 위해 실제 데이터를 섞을 것을 권고합니다.

출처

관련 항목