Volver al blog
IAPor Adrián Pastora··7 min de lectura

RAG en producción: los detalles que nadie cuenta

Tokenización, chunking, reranking y eval. Lo que necesitas saber antes de poner un chatbot RAG delante de un cliente.

RAGIAVector DB

RAG (Retrieval-Augmented Generation) es fácil de demostrar y difícil de poner en producción. En una demo se ve espectacular. En producción, con preguntas reales de usuarios reales, se cae por sitios raros.

Estos son los detalles que separan un RAG de demo de uno que aguanta.

Chunking: el 80% del problema

La calidad de tu RAG depende más del chunking que del modelo de embeddings. Un mal chunking con el mejor modelo es peor que un buen chunking con un modelo mediocre.

Cosas que he aprendido a las malas:

  • Chunks demasiado pequeños = falta de contexto.
  • Chunks demasiado grandes = ruido y coste de tokens.
  • Chunks cortados por la mitad de una frase = muerte.
  • El tamaño óptimo depende del tipo de documento.

Reranking: el truco que casi nadie usa

La búsqueda vectorial te da 20 candidatos. El problema es que los 5 primeros no son siempre los más relevantes. Un cross-encoder reordena esos 20 y los mejores salen arriba.

Reranking añade 200ms y mejora la calidad un 30%. Es la mejor inversión de latencia que puedes hacer.

Evaluación: lo más ignorado

¿Cómo sabes si tu RAG es bueno? No puedes "probar a ver". Necesitas:

  1. Un dataset de preguntas reales con respuestas esperadas.
  2. Métricas automáticas (precision, recall, faithfulness).
  3. Un proceso para detectar regresiones antes de desplegar.

Sin esto, cada cambio es una apuesta.

Los detalles sucios

Metadatos

Filtra por metadatos siempre que puedas. Fecha, departamento, tipo de documento. Reduce el espacio de búsqueda y mejora la precisión enormemente.

Vectorial + keyword (BM25) combinados vencen a cualquiera por separado.

Citación de fuentes

Si el modelo no cita la fuente, no sabes si está alucinando. Es no negociable.

En resumen

RAG en producción no es un problema de modelos. Es un problema de ingeniería de datos disfrazada de problema de IA.


— Adrián Pastora

Si te ha resultado útil y quieres aplicar algo de esto en tu empresa, hablemos.