12 апр. 2026 г.
RAGПоискGenAI

Реранкинг в RAG‑пайплайнах

Зачем нужен реранкинг, как его проектировать и безопасно внедрять в продакшн RAG.

Что такое реранкинг

Реранкер переупорядочивает top‑K фрагментов с помощью более сильной модели (обычно cross‑encoder или LLM‑reranker) и отдаёт более релевантный top‑N для генерации.

Когда он нужен

  • В итоговый контекст часто попадает нерелевант.
  • Индекс большой и «переливает» recall.
  • Есть жёстные ограничения по размеру контекста.

Типовой пайплайн

  1. Retrieve top‑K по эмбеддингам (быстро, высокий recall).
  2. Rerank K→N cross‑encoder’ом (медленнее, выше precision).
  3. Select top‑N в промпт.

Практические дефолты

ЭтапДефолт
K (retrieve)50–200
N (final)6–12
RerankerCross‑encoder (BGE/ColBERT класс)

Метрики

  • Recall@K (ретривер)
  • MRR / nDCG (реранкер)
  • Качество ответа на фиксированном датасете
  • Latency бюджет (P95)

Безопасный запуск

Пример layout промпта

System: Ответ давай только по контексту.
 
Context:
[1] ...
[2] ...
[3] ...
 
Question: ...

Итог

Реранкинг — самый дешёвый апгрейд качества RAG. Часто он даёт больший эффект, чем увеличение модели или длины контекста.