12 апр. 2026 г.
RAGПоискGenAI
Реранкинг в RAG‑пайплайнах
Зачем нужен реранкинг, как его проектировать и безопасно внедрять в продакшн RAG.
Коротко
Ретривер даёт recall, реранкер даёт precision. Без реранкинга LLM тратит контекст на шум и качество ответа падает под нагрузкой.
Что такое реранкинг
Реранкер переупорядочивает top‑K фрагментов с помощью более сильной модели (обычно cross‑encoder или LLM‑reranker) и отдаёт более релевантный top‑N для генерации.
Когда он нужен
- В итоговый контекст часто попадает нерелевант.
- Индекс большой и «переливает» recall.
- Есть жёстные ограничения по размеру контекста.
Типовой пайплайн
- Retrieve top‑K по эмбеддингам (быстро, высокий recall).
- Rerank K→N cross‑encoder’ом (медленнее, выше precision).
- Select top‑N в промпт.
Практические дефолты
| Этап | Дефолт |
|---|---|
| K (retrieve) | 50–200 |
| N (final) | 6–12 |
| Reranker | Cross‑encoder (BGE/ColBERT класс) |
Метрики
- Recall@K (ретривер)
- MRR / nDCG (реранкер)
- Качество ответа на фиксированном датасете
- Latency бюджет (P95)
Безопасный запуск
Пример layout промпта
System: Ответ давай только по контексту.
Context:
[1] ...
[2] ...
[3] ...
Question: ...Итог
Реранкинг — самый дешёвый апгрейд качества RAG. Часто он даёт больший эффект, чем увеличение модели или длины контекста.