Реранкинг в RAG‑пайплайнах

Зачем нужен реранкинг, как его проектировать и безопасно внедрять в продакшн RAG.

Коротко

Ретривер даёт recall, реранкер даёт precision. Без реранкинга LLM тратит контекст на шум и качество ответа падает под нагрузкой.

Что такое реранкинг

Реранкер переупорядочивает top‑K фрагментов с помощью более сильной модели (обычно cross‑encoder или LLM‑reranker) и отдаёт более релевантный top‑N для генерации.

Когда он нужен

В итоговый контекст часто попадает нерелевант.
Индекс большой и «переливает» recall.
Есть жёстные ограничения по размеру контекста.

Типовой пайплайн

Retrieve top‑K по эмбеддингам (быстро, высокий recall).
Rerank K→N cross‑encoder’ом (медленнее, выше precision).
Select top‑N в промпт.

Практические дефолты

Этап	Дефолт
K (retrieve)	50–200
N (final)	6–12
Reranker	Cross‑encoder (BGE/ColBERT класс)

Метрики

Recall@K (ретривер)
MRR / nDCG (реранкер)
Качество ответа на фиксированном датасете
Latency бюджет (P95)

Безопасный запуск

Пример layout промпта

System: Ответ давай только по контексту.
 
Context:
[1] ...
[2] ...
[3] ...
 
Question: ...

Итог

Реранкинг — самый дешёвый апгрейд качества RAG. Часто он даёт больший эффект, чем увеличение модели или длины контекста.