훈련
합성 데이터 (synthetic data)
모델이나 시뮬레이션으로 인공 생성한 데이터로, AI 모델을 훈련·평가할 때 사람이 수집한 데이터를 보완하거나 대체하며 데이터 부족 완화와 프라이버시 보호에 쓰입니다.
**합성 데이터 (synthetic data)**는 실제 사건에서 생기는 것이 아니라 실제 데이터의 패턴을 모방하도록 인공적으로 생성된 데이터입니다. 알고리즘, 시뮬레이션, 또는 AI 모델 자체가 만들어 내며, 모델을 훈련하고 평가할 때 사람이 수집한 데이터셋을 보완하거나 완전히 대체하는 데 사용됩니다.
오늘날 실무에서는 강력한 “교사” 모델이 프롬프트, 답변, 레이블을 생성하고 이를 다른 모델이 학습합니다 — 이는 지식 증류와 밀접하게 관련된 방식입니다. 이렇게 파인튜닝용 데이터, 사고 연쇄 추론 코퍼스, RLHF용 선호 쌍을 얻습니다. 시뮬레이션과 절차적 생성은 희소하거나 프라이버시에 민감한 시나리오를 채우며, 수작업 주석보다 더 정확한 레이블을 다는 경우가 많습니다.
이 주제는 고품질 인간 웹 텍스트의 공급이 고갈되면서(“데이터 장벽”) 2025–2026년에 특히 활발히 논의됩니다. 연구는 모델을 주로 자신의 출력으로 훈련하면 모델 붕괴가 일어난다고 경고하며, 사실성·충실도·무편향성을 강조하고 현실에 닻을 내리기 위해 실제 데이터를 섞을 것을 권고합니다.