RAG en producción: los detalles que nadie cuenta
Tokenización, chunking, reranking y eval. Lo que necesitas saber antes de poner un chatbot RAG delante de un cliente.
RAG (Retrieval-Augmented Generation) es fácil de demostrar y difícil de poner en producción. En una demo se ve espectacular. En producción, con preguntas reales de usuarios reales, se cae por sitios raros.
Estos son los detalles que separan un RAG de demo de uno que aguanta.
Chunking: el 80% del problema
La calidad de tu RAG depende más del chunking que del modelo de embeddings. Un mal chunking con el mejor modelo es peor que un buen chunking con un modelo mediocre.
Cosas que he aprendido a las malas:
- Chunks demasiado pequeños = falta de contexto.
- Chunks demasiado grandes = ruido y coste de tokens.
- Chunks cortados por la mitad de una frase = muerte.
- El tamaño óptimo depende del tipo de documento.
Reranking: el truco que casi nadie usa
La búsqueda vectorial te da 20 candidatos. El problema es que los 5 primeros no son siempre los más relevantes. Un cross-encoder reordena esos 20 y los mejores salen arriba.
Reranking añade 200ms y mejora la calidad un 30%. Es la mejor inversión de latencia que puedes hacer.
Evaluación: lo más ignorado
¿Cómo sabes si tu RAG es bueno? No puedes "probar a ver". Necesitas:
- Un dataset de preguntas reales con respuestas esperadas.
- Métricas automáticas (precision, recall, faithfulness).
- Un proceso para detectar regresiones antes de desplegar.
Sin esto, cada cambio es una apuesta.
Los detalles sucios
Metadatos
Filtra por metadatos siempre que puedas. Fecha, departamento, tipo de documento. Reduce el espacio de búsqueda y mejora la precisión enormemente.
Hybrid search
Vectorial + keyword (BM25) combinados vencen a cualquiera por separado.
Citación de fuentes
Si el modelo no cita la fuente, no sabes si está alucinando. Es no negociable.
En resumen
RAG en producción no es un problema de modelos. Es un problema de ingeniería de datos disfrazada de problema de IA.
— Adrián Pastora
Si te ha resultado útil y quieres aplicar algo de esto en tu empresa, hablemos.

FREEAI: un orquestador de LLMs gratuitos con API compatible con OpenAI
Las free tiers de Cerebras, Groq, Gemini, Mistral, OpenRouter, Cohere y HuggingFace por separado dan para un prototipo. Sumadas detrás de un mismo endpoint, dan para producción. Cómo lo construí y por qué lo abrí en MIT.
Por qué la IA sin fundamentos es un riesgo para tu empresa
La IA no sustituye la ingeniería — la amplifica. Y si los cimientos son malos, también amplifica los problemas.
Cómo decidir qué procesos automatizar primero
No todo lo repetitivo merece un script. Una matriz simple para priorizar automatizaciones que de verdad ahorran tiempo.