Google：推理解锁LLM知识的机制

Google Research揭示了推理轨迹通过两种机制改善模型权重中存储事实的提取——计算缓冲区和事实启动——在Gemini 2.5和Qwen3-32B上进行了测试。

为何模型会遗忘它们已知的内容？

大型语言模型在其权重中存储了大量知识——所谓的参数化知识（直接编码到模型参数中的事实，无需访问外部数据库）。但用户经常注意到，即使对训练数据中的内容，模型也会产生幻觉。Google Research现在解释了原因——以及推理轨迹如何改变这一等式。

Google Research识别出思维步骤（推理轨迹——模型在最终答案前写出的一系列中间步骤）通过两种独立机制改善参数化知识提取。

计算缓冲区在计算容量层面发挥作用：通过网络的每次额外前向传播都给模型提供更多知识搜索空间。关键演示——即使是「让我想一想……」这样的无意义填充文字也能提升准确率，因为它在没有语义内容的情况下延长了处理过程。

事实启动在内容层面起作用：模型在推理过程中引出相关中间事实，通过扩散激活原理激活正确的最终答案。该机制类似于人类通过联想链条记起名字的方式。

研究使用SimpleQA Verified和EntityQuestions基准——专门设计用于衡量参数化知识中事实性答案准确率的数据集——在Gemini 2.5 Flash、Gemini 2.5 Pro和Qwen3-32B模型上进行。

关键发现：推理轨迹中一个幻觉化的中间事实显著降低最终答案的准确率，即使推理的其余部分是正确的。这解释了为何大声思考的模型有时比较短的模型出错更多——一个错误的中间步骤会将「启动」引向错误方向。

这一发现具有实际影响：对于依赖事实准确性的应用，推理轨迹的长度和质量不是装饰，而是关键因素。提示和系统设计者需要关注模型引出哪些中间事实——而不仅仅是最终答案。

常见问题

什么是参数化知识，为何难以提取？

参数化知识是训练期间直接编码到模型权重中的事实，无需访问外部数据库。提取不可靠，因为模型必须仅凭查询激活正确的神经路径。

计算缓冲区如何帮助模型记住准确数据？

通过网络的每次额外前向传播——即使使用「让我想一想」等无意义填充文字——都给模型提供更多知识搜索的计算容量，类似于人类花一点时间思考。