Google Research:推理如何解锁LLM中的参数化知识
Google Research揭示了推理轨迹通过两种机制改善模型权重中存储事实的提取——计算缓冲区和事实启动——在Gemini 2.5和Qwen3-32B上进行了测试。
本文由人工智能基于一手来源生成。
为何模型会遗忘它们已知的内容?
大型语言模型在其权重中存储了大量知识——所谓的参数化知识(直接编码到模型参数中的事实,无需访问外部数据库)。但用户经常注意到,即使对训练数据中的内容,模型也会产生幻觉。Google Research现在解释了原因——以及推理轨迹如何改变这一等式。
改善知识提取的两种机制
Google Research识别出思维步骤(推理轨迹——模型在最终答案前写出的一系列中间步骤)通过两种独立机制改善参数化知识提取。
计算缓冲区在计算容量层面发挥作用:通过网络的每次额外前向传播都给模型提供更多知识搜索空间。关键演示——即使是「让我想一想……」这样的无意义填充文字也能提升准确率,因为它在没有语义内容的情况下延长了处理过程。
事实启动在内容层面起作用:模型在推理过程中引出相关中间事实,通过扩散激活原理激活正确的最终答案。该机制类似于人类通过联想链条记起名字的方式。
Gemini 2.5和Qwen3-32B上的结果
研究使用SimpleQA Verified和EntityQuestions基准——专门设计用于衡量参数化知识中事实性答案准确率的数据集——在Gemini 2.5 Flash、Gemini 2.5 Pro和Qwen3-32B模型上进行。
关键发现:推理轨迹中一个幻觉化的中间事实显著降低最终答案的准确率,即使推理的其余部分是正确的。这解释了为何大声思考的模型有时比较短的模型出错更多——一个错误的中间步骤会将「启动」引向错误方向。
对实践的启示
这一发现具有实际影响:对于依赖事实准确性的应用,推理轨迹的长度和质量不是装饰,而是关键因素。提示和系统设计者需要关注模型引出哪些中间事实——而不仅仅是最终答案。
常见问题
- 什么是参数化知识,为何难以提取?
- 参数化知识是训练期间直接编码到模型权重中的事实,无需访问外部数据库。提取不可靠,因为模型必须仅凭查询激活正确的神经路径。
- 计算缓冲区如何帮助模型记住准确数据?
- 通过网络的每次额外前向传播——即使使用「让我想一想」等无意义填充文字——都给模型提供更多知识搜索的计算容量,类似于人类花一点时间思考。