重排序

检索的第二阶段，按相关性对召回的候选结果重新排序，通常用交叉编码器，以提升 RAG 与搜索的质量。

重排序（reranking）是检索的第二个阶段，按候选结果对查询的相关性高低重新排列召回列表。第一阶段——通常是对向量数据库或关键词的检索——能快速返回几十到几百份可能的文档，但排序粗糙；重排序则对其精确重排，只保留最相关的少数几条。

关键差异在于模型。初次召回使用_双编码器_，把查询和文档分别嵌入，因此速度快但精度较低。重排序器通常是_交叉编码器_：查询与文档一起送入模型，使二者的 token 之间能直接进行注意力交互，从而给出校准得多的相关性分数。代价是更重的推理开销，因此只对少量候选做重排。

在 2025 至 2026 年间，重排序已是生产级 RAG 流水线的标准组件，因为它能以极小的额外延迟显著提升检索准确率。商用模型（Cohere Rerank、Jina、Voyage）与开放权重重排序器（BGE、FlashRank）让它唾手可得。

来源