基礎
ニューラルネットワーク
層状に配置された人工ニューロンで構成される計算システムで、データからパターンを学習します。LLMを含むほぼすべての現代の機械学習システムの基礎となっています。
ニューラルネットワークは、脳から大まかにインスパイアされた計算モデルです。重み付けされた入力を受け取り、非線形の活性化関数を適用し、結果を次の層に渡す単純な単位 — 人工ニューロン — の層で構成されています。ラベル付きデータまたは自己教師ありデータでの学習を通じて重みを調整することで、ネットワークは入力(ピクセル、音声、テキストトークン)を出力(クラス、予測、埋め込み)にマッピングすることを学びます。
典型的なネットワークには入力層、1つ以上の隠れ層、出力層があります。隠れ部分が深い場合 — 数十から数百の層 — その分野はディープラーニングと呼ばれます。学習はバックプロパゲーションに基づきます。出力での誤差をネットワーク全体に微分し、確率的勾配降下法を通じて各重みを正しい方向に動かすために使用します。
現代のニューラルネットワークにはさまざまな形があります。画像用の畳み込みネットワーク、時系列用の再帰型、関係データ用のグラフネットワーク、そして最も重要なのが今日の大規模言語モデルの基盤となっているトランスフォーマーです。同じ基本的なアイデア — 単純な微分可能な単位を学習可能なパイプラインに積み重ねる — が、視覚、音声、ロボティクス、創薬、コード生成のシステムを駆動しています。