IG-Search:以信息增益为奖励信号改善搜索增强推理,计算开销仅6.4%
为什么重要
IG-Search是一种用于训练搜索增强推理AI模型的新方法,使用信息增益(Information Gain)作为步骤级奖励信号。该信号从模型自身的生成概率中派生,无需外部标注。Qwen2.5-3B采用此方法后在7个QA基准上的平均EM得分为0.430——比MR-Search高1.6分,比GiGPO高0.9分,而计算开销仅6.4%。
IG-Search是什么?
IG-Search是一种训练AI模型进行搜索辅助思考的新方法——这种范式被称为搜索增强推理。在此类模型中,LLM在解决问题时可以调用搜索来检索可能帮助回答问题的文档。
核心创新在于奖励设计:与标准最终奖励(所有步骤后的正确或错误答案)不同,IG-Search使用信息增益作为每个单独步骤的信号。简单来说,该方法衡量检索到的文档在多大程度上提高了模型对正确答案的置信度——如果文档使模型更有把握,则为正奖励;如果降低置信度,则为负奖励。
「无需外部标注」意味着什么?
训练搜索代理的传统方法需要标注样本:人工标注者标记哪些搜索调用有用。这既昂贵又难以扩展。
IG-Search从模型自身的生成概率中派生信号——检查正确答案的概率分布在检索文档前后如何变化。如果检索后模型对正确答案给出更高概率,这意味着检索带来了有用信息,无需任何人工标注。
效率如何?
在Qwen2.5-3B模型上,IG-Search实现了:
- 平均精确匹配(EM)得分: 在7个QA基准上为0.430
- 比MR-Search(之前的SOTA)高1.6分
- 比GiGPO方法高0.9分
- 计算开销: 仅约6.4%
最后一个数字很重要——许多步骤级奖励方法实际上会增加20-50%的训练成本,使其不切实际。IG-Search只有6.4%的开销,将大部分训练预算留给模型本身,而非复杂的奖励程序。
这对小型模型意味着什么?
Qwen2.5-3B是一个30亿参数模型——处于实用搜索代理的最低门槛。IG-Search在这一规模上展示出结果,这表明同样的方法在7B、14B及更大规模上也可能带来显著改进,无需昂贵的标注。
作者(九位研究员,以Liang为首)未提及代码发布日期,但低开销、跨7个基准的稳健结果以及消除人工标注需求的组合,使这一方法对构建自有搜索增强LLM的团队颇具吸引力。
本文由人工智能基于一手来源生成。