基礎

スケーリング則

モデル規模・学習データ・計算量と性能を結ぶ経験的なべき乗則であり、大規模モデルの学習計画の基盤となる。

スケーリング則scaling laws)とは、パラメータ数・学習データ量・学習に投じた計算量という三つの量が増えるにつれ、モデルの損失(loss)がなめらかに低下する様子を表す経験的なべき乗則である。Kaplan ら(2020)は、大規模言語モデルの性能が数桁にわたって予測可能な曲線に従うことを示した。

代表的な形は L(N, D) = E + A·N^−α + B·D^−β で、N はパラメータ数、D はトークン数を表す。これらの法則により、膨大な計算予算を投じる前に、小規模で安価な実験から大規模モデルの品質を見積もることができる。

Hoffmann ら(2022、「Chinchilla」)はこの規則を修正し、固定の予算下ではパラメータとデータを同じ比率で拡大すべきだと示した。初期のモデルは学習が不足していたためである。スケーリング則は今や基盤モデルの設計を支えており、2025-2026 年の議論はフロンティアモデルや推論時の計算量拡張(test-time compute)へと移りつつある。

出典

関連項目