训练
思维链(Chain-of-Thought)
一种让语言模型在给出最终答案前先写出一系列中间推理步骤的技术,可显著提升模型在复杂多步任务上的准确率。
思维链(Chain-of-Thought,CoT)是一种让大语言模型在给出最终答案前先生成一系列中间推理步骤的技术——相当于让模型”把思路写出来”。模型不再直接输出结果,而是把问题拆解为更小的步骤,从而显著提升其在算术、逻辑和多步推理任务上的准确率。
该技术由谷歌大脑(Google Brain)的研究者于 2022 年提出(Wei 等人)。在最初形式下,它属于上下文学习:在提示词中加入展示推理过程的示例。研究者后来发现,仅需附上一句”让我们一步一步思考”,即可触发零样本思维链,无需任何示例。
思维链是现代推理模型的基础,如 OpenAI 的 o1/o3 系列、DeepSeek R1 以及具备扩展思考能力的 Claude。在 2024 至 2026 年间,这些模型将思维链从一种提示技巧转变为通过训练内化的模型特性,由此开辟了一条新的扩展轴——以推理时的算力换取准确率。