Reranking

Reranking (reranking) ist eine zweite Retrieval-Stufe, die eine Liste abgerufener Kandidaten nach ihrer geschätzten Relevanz für eine Anfrage neu ordnet. Der erste Durchlauf — meist eine Suche über eine Vektordatenbank oder Schlüsselwörter — liefert schnell Dutzende bis Hunderte möglicher Dokumente, aber nur grob sortiert; Reranking ordnet sie präzise neu und behält nur die wenigen besten.

Der entscheidende Unterschied liegt im Modell. Der erste Abruf nutzt einen Bi-Encoder, der Anfrage und Dokument getrennt einbettet, also schnell, aber weniger genau ist. Der Reranker ist typischerweise ein Cross-Encoder: Anfrage und Dokument durchlaufen das Modell gemeinsam, was direkte Attention zwischen ihren Tokens ermöglicht und einen weit besser kalibrierten Relevanzwert liefert. Der Preis ist eine aufwendigere Inferenz, daher wird nur eine enge Auswahl an Kandidaten neu sortiert.

Über 2025–2026 ist Reranking ein Standardbaustein produktiver RAG-Pipelines, da es die Retrieval-Genauigkeit bei geringer zusätzlicher Latenz messbar steigert. Kommerzielle Modelle (Cohere Rerank, Jina, Voyage) und Open-Weight-Reranker (BGE, FlashRank) machen es leicht verfügbar.

Quellen

Siehe auch