モデル

Generative Pretrained Transformer(GPT)

デコーダーのみのトランスフォーマー言語モデル群で、巨大なテキストで事前学習され指示用にファインチューニングされる、ChatGPTを支えるアーキテクチャです。

**Generative Pretrained Transformer(GPT)**は、デコーダーのみのトランスフォーマーを2段階で学習させる大規模言語モデルのクラスです。まずモデルは、インターネットテキストの巨大コーパス上で「次のトークンを予測する」というシンプルな目標で事前学習されます。次に、ファインチューニング、教師ありデモンストレーション、人間のフィードバックからの強化学習を通じて、指示に従うように適応されます。

OpenAIは2018年に最初のGPTを発表し、GPT-2(2019年)、GPT-3(2020年)、GPT-3.5 — 2022年末に最初のChatGPTを駆動 — そしてGPT-4 / GPT-4o / GPT-5世代へとスケールしてきました。各ステップでパラメータ数、データ量、コンテキストサイズが増加し、手法は推論、マルチモダリティ、ツール利用を改善してきました。

GPTのレシピは業界の支配的なパターンとなりました。Claude、Gemini、Llama、Mistral、DeepSeek、Qwenはすべてデコーダーのみのトランスフォーマーで、非常に類似した目標で学習されますが、重みやエンジニアリング上の選択は異なります。

日常的な使用では「GPT」は時にOpenAIモデルを狭く指し、時にデコーダー型LLMファミリー全体を広く指します — 用語は過負荷ですが、現代AIにとって紛れもなく中心的なものです。

出典

関連項目