訓練

思考の連鎖(Chain-of-Thought)

言語モデルが最終的な答えの前に一連の中間推論ステップを書き出す手法で、複雑な多段階タスクの正確性を大きく向上させる。

思考の連鎖Chain-of-Thought、CoT)とは、大規模言語モデルが最終的な答えを出す前に一連の中間推論ステップを生成する手法であり、いわば「考えを声に出して書き起こす」ものである。モデルは解答を即座に出力する代わりに、問題を小さなステップへ分解し、算術・論理・多段階のタスクにおける正確性を大きく向上させる。

この手法は 2022 年に Google Brain の研究者ら(Wei ら)によって提唱された。当初の形式では文脈内学習の一種であり、推論ステップを示した解答例をプロンプトに含める。その後、「ステップごとに考えよう」と付け加えるだけで、例を一つも示さずにゼロショットのCoTを引き出せることが分かった。

思考の連鎖は、OpenAI の o1/o3 シリーズ、DeepSeek R1、拡張思考を備えた Claude といった現代の推論モデルの基盤である。2024〜2026 年にかけて、これらのモデルはCoTをプロンプトの工夫から訓練によって獲得される特性へと変え、推論時の計算量を正確性と引き換えにする新たなスケーリングの軸を開いた。

出典

関連項目