基礎
ディープラーニング(深層学習)
多層のニューラルネットワークを用いて複雑なパターンを学習する機械学習の分野で、現代のコンピュータビジョン、音声認識、言語AIシステムの根幹を支えています。
ディープラーニングは機械学習のサブ分野で、多くの表現層を積み重ねたニューラルネットワークを構築します。各層は入力をやや抽象的な特徴空間に変換し、これらの変換の組み合わせにより、モデルは古典的なアルゴリズムの能力を超えるパターンを捉えることができます — 視覚ではエッジから形状、物体へ、言語では文字から単語、意味へと。
現代の時代は2012年頃に始まりました。深層畳み込みネットワーク(AlexNet)が画像分類のImageNetベンチマークを打ち破ったときです。その手法 — 大規模なラベル付きデータセット、GPUの計算能力、バックプロパゲーションを通じたエンドツーエンド学習 — はすぐに音声認識、機械翻訳、ゲームプレイ、そして最終的には生成モデルへと広がりました。Yann LeCun、Yoshua Bengio、Geoffrey Hintonは2018年、その基礎研究によりチューリング賞を受賞しました。
ディープラーニングは、私たちが取り上げるほぼすべてのものの根幹にあります。トランスフォーマーアーキテクチャと、そこから生まれる大規模言語モデルは、数十億から数兆のパラメータを持つ深層学習システムです。画像生成器、音声モデル、タンパク質構造予測器、自動運転車の知覚スタックは同じ原理を共有しています。微分可能な層を積み重ね、勾配降下法で訓練し、スケールに多くの作業をさせるのです。