基础设施
重排序
检索的第二阶段,按相关性对召回的候选结果重新排序,通常用交叉编码器,以提升 RAG 与搜索的质量。
重排序(reranking)是检索的第二个阶段,按候选结果对查询的相关性高低重新排列召回列表。第一阶段——通常是对向量数据库或关键词的检索——能快速返回几十到几百份可能的文档,但排序粗糙;重排序则对其精确重排,只保留最相关的少数几条。
关键差异在于模型。初次召回使用_双编码器_,把查询和文档分别嵌入,因此速度快但精度较低。重排序器通常是_交叉编码器_:查询与文档一起送入模型,使二者的 token 之间能直接进行注意力交互,从而给出校准得多的相关性分数。代价是更重的推理开销,因此只对少量候选做重排。
在 2025 至 2026 年间,重排序已是生产级 RAG 流水线的标准组件,因为它能以极小的额外延迟显著提升检索准确率。商用模型(Cohere Rerank、Jina、Voyage)与开放权重重排序器(BGE、FlashRank)让它唾手可得。