推論モデル

推論モデルとは、検証可能な問題に対する強化学習によって、回答前に拡張された計算時間を「考える」ために費やすよう訓練された大規模言語モデルです。内部的にはモデルが長い中間ステップの連鎖（「思考トークン」とも呼ばれる）を生成し、それはしばしばユーザーに表示されず、最終的に簡潔な回答だけが出力されます。

このパラダイムは、OpenAI o1（2024年9月）の登場とともに主流となり、続いてo3、DeepSeek R1、AnthropicのClaude（拡張思考モード）、Google Gemini Thinking、Qwen QwQが登場しました。推論モデルは数学・競技プログラミング・科学的推論・多段階計画立案において優れた能力を発揮します。これらは検証が容易なドメインであり、正解の最終回答に対して報酬を与える訓練手法と相性が良いためです。

これはテスト時計算スケーリングとして捉えられることもあります。モデルを大きくするだけでなく、推論時に長く考えさせることで性能を引き上げるアプローチです。実証的に、思考トークン数を倍増させると難しい問題の精度が向上することが多く、事前訓練計算量を超えた新たなスケーリング軸を開拓しています。

トレードオフ：

コスト： 標準的な回答の5〜30倍の出力トークンを消費する
レイテンシ： 応答まで数秒から数分かかる
収穫逓減： 長く考えるほど改善効果はいずれか頭打ちになる
ドメイン選択性： 論理・数学・コードでの改善は顕著、オープンエンドな文章生成ではそれほど効果がない

2026年時点で、主要なAIラボはいずれも「高速」モデルと「推論」モデルの両方を提供しています。クエリごとに適切なモデルを選択するルーティングは、それ自体が一つの最適化課題となっています。

出典

関連項目