訓練

合成データ(synthetic data)

モデルやシミュレーションで人工生成したデータで、AIの訓練や評価において人間が集めたデータを補完・代替し、データ不足の緩和やプライバシー保護に役立ちます。

**合成データ(synthetic data)**は、現実の出来事から生じるのではなく、現実データのパターンを模倣するように人工生成されたデータです。アルゴリズム、シミュレーション、あるいはAIモデル自身によって生成され、モデルの訓練や評価において人間が収集したデータセットを補完、または完全に代替するために使われます。

今日の実践では、強力な「教師」モデルがプロンプト・回答・ラベルを生成し、それを別のモデルが学習します — これは知識蒸留と密接に関連する手法です。これによりファインチューニング用データ、思考連鎖の推論コーパス、RLHF用の選好ペアが得られます。シミュレーションや手続き的生成は、稀少またはプライバシーに敏感な場面を補い、手作業の注釈より正確なラベルを付けられることも多いです。

このテーマは2025〜2026年に特に活発です。高品質な人間由来のウェブテキストが枯渇しつつある(「データの壁」)ためです。研究は、モデルを主に自身の出力で訓練するとモデル崩壊が起きると警告しており、事実性・忠実性・無偏性を重視し、現実に錨を下ろすために実データを混ぜることが強調されています。

出典

関連項目