什么是搜索增强推理？

一种范式，其中LLM在推理过程中调用搜索（网络或数据库）来检索相关文档，从而更好地回答复杂问题。

为什么用步骤级奖励而不是最终奖励？

因为最终奖励（正确或错误答案）提供的训练信号很弱——模型不知道哪个具体的搜索步骤有用。步骤级奖励对每个单独的搜索调用进行评估。

IG-Search是一种训练AI模型进行搜索辅助思考的新方法——这种范式被称为搜索增强推理。在此类模型中，LLM在解决问题时可以调用搜索来检索可能帮助回答问题的文档。

核心创新在于奖励设计：与标准最终奖励（所有步骤后的正确或错误答案）不同，IG-Search使用信息增益作为每个单独步骤的信号。简单来说，该方法衡量检索到的文档在多大程度上提高了模型对正确答案的置信度——如果文档使模型更有把握，则为正奖励；如果降低置信度，则为负奖励。

训练搜索代理的传统方法需要标注样本：人工标注者标记哪些搜索调用有用。这既昂贵又难以扩展。

IG-Search从模型自身的生成概率中派生信号——检查正确答案的概率分布在检索文档前后如何变化。如果检索后模型对正确答案给出更高概率，这意味着检索带来了有用信息，无需任何人工标注。

在Qwen2.5-3B模型上，IG-Search实现了：

最后一个数字很重要——许多步骤级奖励方法实际上会增加20-50%的训练成本，使其不切实际。IG-Search只有6.4%的开销，将大部分训练预算留给模型本身，而非复杂的奖励程序。

Qwen2.5-3B是一个30亿参数模型——处于实用搜索代理的最低门槛。IG-Search在这一规模上展示出结果，这表明同样的方法在7B、14B及更大规模上也可能带来显著改进，无需昂贵的标注。

作者（九位研究员，以Liang为首）未提及代码发布日期，但低开销、跨7个基准的稳健结果以及消除人工标注需求的组合，使这一方法对构建自有搜索增强LLM的团队颇具吸引力。