¿Qué son los evals para LLMs y por qué los necesita una PyME?

Los evals son pruebas automatizadas que miden si un workflow IA produce resultados correctos. Sin ellos, no sabes cuándo un cambio de modelo o de prompt rompió algo silenciosamente.

¿Cuántos casos necesito en mi dataset dorado para empezar?

Entre 50 y 100 casos reales, cubiertos manualmente por alguien de tu equipo, son suficientes para detectar regresiones en workflows de negocio típicos.

¿Qué herramientas uso para correr evals sin infraestructura compleja?

La combinación más accesible es PromptFoo o un script Python con OpenAI Batch API, una hoja de cálculo o base de datos liviana para el dataset dorado, y un webhook a Slack para alertas.

¿Cada cuánto debo correr los evals?

Una corrida semanal, típicamente los lunes antes del horario laboral, es suficiente para la mayoría de las PyMEs. Si cambias prompts o modelos con frecuencia, conviene correr evals en cada despliegue.

¿Cuánto cuesta este stack al mes?

Menos de $30/mes. Los costos principales son las llamadas a la API durante la corrida batch (entre $8 y $15 según el volumen) y el hosting del script, que puede correr en el plan Starter de Railway ($5/mes) o en el plan Free de Render con un cron job programado.

Evals para PyMEs: 3 workflows IA sin gastar de más

TL;DR

Una PyME con 3 workflows IA puede evaluar su calidad con un dataset de 50-100 casos reales, una corrida batch los lunes y alertas en Slack cuando la tasa de éxito cae. El costo total ronda los $20-$28/mes y el setup toma menos de 2 días.

El problema real: nadie sabe cuándo el workflow dejó de funcionar

Tienes 3 workflows IA corriendo en producción. Uno clasifica tickets de soporte, otro extrae datos de facturas en PDF, el tercero genera borradores de respuestas para tu equipo de ventas. Todos funcionaban bien cuando los lanzaste hace 4 meses.

Luego migraste de GPT-4o a GPT-4.1 porque era más barato. O ajustaste un prompt. O el proveedor actualizó silenciosamente su modelo. Y ahora uno de los 3 produce basura el 15% de las veces, pero nadie lo detectó porque “funciona más o menos”.

Eso es exactamente lo que resuelven los evals. No son una práctica de labs de investigación: son el control de calidad que ya tienes para tu código, aplicado a tus workflows IA. Cada semana que pasa sin evals es una semana en la que una regresión silenciosa puede estar afectando decisiones de negocio reales.

La buena noticia es que montar este sistema no requiere un equipo de ingeniería dedicado ni presupuesto de enterprise. Este artículo muestra exactamente cómo hacerlo para 3 workflows IA, con un dataset dorado, corridas batch automatizadas y alertas en Slack, todo por menos de $30 al mes.

Dataset dorado: la base de todo

El primer activo que necesitas construir es un dataset dorado: una colección de 50-100 pares (entrada, salida correcta) representativos de cada workflow.

Para el clasificador de tickets, son 50 tickets reales con la categoría correcta que tú o un agente validaron manualmente. Para el extractor de facturas, 60 PDFs con los campos esperados ya completados. Para el generador de borradores, 40 conversaciones con el borrador que tu equipo habría aprobado sin editar.

La clave es que los casos vengan de situaciones reales, no inventadas. Los casos borde importan: un ticket ambiguo, una factura con formato raro, un cliente que escribe en spanglish. Si tu dataset dorado solo tiene los casos fáciles, los evals te mentirán.

Armar este dataset toma entre 4 y 8 horas para alguien que conoce el negocio. Es el trabajo más importante de todo el proceso y solo se hace una vez (luego crece orgánicamente con cada nuevo caso borde que encuentres en producción).

Una práctica útil es etiquetar los casos por nivel de dificultad: fácil, medio y difícil. Eso te permite entender no solo si el workflow falla, sino dónde falla primero cuando baja la calidad. Los casos difíciles son los primeros en degradarse cuando cambias un modelo o ajustas un prompt.

Guarda el dataset en un formato simple: una hoja de cálculo, un archivo JSONL o una tabla en Supabase. Lo importante es que sea versionable y que cualquier persona del equipo pueda agregar casos sin fricción técnica.

La corrida batch: lunes 6am, sin que nadie lo supervise

Con el dataset listo, el siguiente paso es automatizar la corrida. La mecánica es simple: cada lunes a las 6am, un script toma tu dataset, llama al workflow con cada entrada, compara la salida con el resultado esperado y genera un reporte.

Para el stack técnico, hay 2 caminos según el perfil del equipo.

Opción	Nivel técnico requerido	Costo mensual	Tiempo de setup
PromptFoo con YAML	Básico (sin escribir código)	$5-10 en API calls	3-4 horas
Script Python con OpenAI Batch	Intermedio (algo de código)	$8-15 en API calls	6-8 horas
Langfuse hosted	Básico a intermedio	$0 (free tier) más API calls	4-5 horas
Evaluador custom en n8n	Bajo (visual, no-code)	$10-18 total	5-7 horas

PromptFoo es la opción más rápida si solo necesitas evaluar prompts y ya tienes los workflows definidos en YAML. Langfuse tiene un free tier generoso y funciona bien para trazabilidad además de evals, lo que lo convierte en una opción muy completa para PyMEs que quieren visibilidad de extremo a extremo. Si ya usas n8n para los workflows en producción, montar el evaluador ahí mismo reduce la fricción considerablemente porque reutilizas la misma infraestructura y credenciales.

El truco del Batch API de OpenAI: en vez de hacer 100 llamadas síncronas en tiempo real (más caro y más lento), el modo batch procesa los casos con hasta 24 horas de delay a la mitad del precio. Para una corrida semanal, ese delay no importa en absoluto. El ahorro en costos de API puede ser del 40-50% comparado con llamadas síncronas estándar, lo que hace una diferencia real cuando corres evals para 3 workflows semana a semana.

Métricas por workflow: mide lo que importa, no todo

Cada workflow necesita su propia métrica de éxito. No hay una métrica universal que funcione para todos los casos.

Para el clasificador de tickets, la métrica es exactitud: porcentaje de categorías correctas sobre el total. Un umbral razonable para empezar es 88%. Si cae por debajo de ese número, algo cambió y necesitas investigar antes de que el problema llegue a los clientes.

Para el extractor de facturas, la métrica relevante es tasa de campos correctos por documento, no exactitud binaria. Un documento con 9 de 10 campos correctos es cualitativamente diferente a uno con 0 de 10: en el primer caso el workflow sigue siendo útil aunque imperfecto, en el segundo es completamente inútil. Definir esa granularidad en la métrica hace que los evals reflejen mejor la realidad operativa.

Para el generador de borradores, la métrica exacta es más subjetiva, así que lo más práctico es usar un LLM juez: otro modelo (puede ser GPT-4o-mini a $0.15 por millón de tokens de entrada) que evalúa si el borrador cumple con criterios específicos que defines en un prompt de evaluación. Esos criterios pueden ser: tono apropiado, información correcta, longitud adecuada, ausencia de alucinaciones.

El juez LLM cuesta entre $2 y $4 por una corrida semanal de 40-60 borradores. Barato para lo que da. La clave para que el juez funcione bien es que el prompt de evaluación sea preciso y que incluya ejemplos de borradores buenos y malos como referencia.

Una recomendación práctica: establece dos umbrales por workflow. El primero es una advertencia (por ejemplo, 85%): el sistema avisa pero no activa una alerta urgente. El segundo es una alerta crítica (por ejemplo, 78%): alguien tiene que revisar antes del mediodía. Esa distinción evita que el equipo ignore las alertas por fatiga.

Alertas en Slack: el único tablero que necesitas

El reporte se manda automáticamente a un canal de Slack, por ejemplo #evals-ia, con un mensaje estructurado. No necesitas un dashboard elaborado ni una herramienta de observabilidad costosa para empezar.

Un mensaje útil tiene esta forma: “Corrida del 2 de junio. Clasificador de tickets: 91% (OK). Extractor de facturas: 84% (ALERTA, umbral 88%). Generador de borradores: 94% (OK). Ver reporte completo en [link al CSV].”

Cuando algún workflow cae por debajo del umbral crítico, el mensaje llega en rojo con mención al responsable del workflow. Sin esa mención directa, la alerta existe pero nadie actúa porque todos asumen que alguien más lo vio.

La integración técnica es un webhook de Slack, que cualquier servicio puede llamar con un POST request. En n8n, es un nodo de Slack nativo. En Python, son 5 líneas con la librería requests. En PromptFoo, hay soporte nativo para webhooks que puedes configurar en el archivo YAML de configuración.

Una mejora simple que agrega mucho valor: incluir en el mensaje la comparación con la corrida anterior. “Extractor de facturas: 84% esta semana vs 91% la semana pasada” comunica tendencia, no solo estado puntual, y ayuda a distinguir entre una caída abrupta (señal de un cambio reciente) y una degradación gradual (señal de drift acumulado).

Costo real del stack: menos de $30/mes

Desglose para una PyME con 3 workflows y 50-100 casos por workflow:

Corrida semanal con Batch API de OpenAI para 300 llamadas totales: entre $8 y $15 según el modelo utilizado. GPT-4o-mini a mitad de precio en modo batch resulta muy económico para la mayoría de los casos de clasificación y extracción. Si usas Claude Haiku de Anthropic, el costo es similar y en algunos casos inferior.

Hosting del script cron: el plan Starter de Railway cuesta $5/mes y puede correr este proceso junto con otros servicios que ya tengas. Si prefieres Render, el plan Free permite cron jobs programados sin costo adicional para cargas de trabajo ligeras como una corrida semanal. Si ya tienes servidor propio o un VPS, el costo marginal es cero.

Langfuse en free tier o almacenamiento en Supabase free tier para los resultados históricos: $0. Guardar los resultados de cada corrida te permite hacer comparaciones históricas y detectar tendencias de degradación antes de que lleguen a umbrales críticos.

Total: entre $13 y $22 por mes en el escenario real. Con un juez LLM para el workflow de borradores, sube a $20-$28. Dentro del presupuesto de cualquier PyME que facture más de $5.000/mes y que dependa de esos workflows para operar.

Errores comunes al implementar evals por primera vez

Hay tres errores que aparecen con frecuencia cuando una PyME monta este sistema por primera vez.

El primero es usar solo casos fáciles en el dataset dorado. Los casos fáciles pasan siempre, incluso cuando el modelo está degradado. El valor real del dataset está en los casos borde y en los casos ambiguos que el modelo maneja de forma inconsistente.

El segundo es establecer umbrales demasiado estrictos desde el inicio. Si pones el umbral en 95% antes de entender la variabilidad real del workflow, vas a recibir alertas constantemente y el equipo va a empezar a ignorarlas. Comienza con un umbral conservador, mide 4 semanas y ajusta con datos reales.

El tercero es no asignar un responsable claro por workflow. Los evals generan alertas, pero alguien tiene que actuar cuando llegan. Define desde el día uno quién es el dueño de cada workflow y quién recibe la mención en Slack cuando hay una alerta crítica.

Cuándo escalar este sistema

Este stack es suficiente para 3-5 workflows y equipos de hasta 15 personas. Las señales de que necesitas algo más sofisticado son claras: más de 500 ejecuciones diarias por workflow, un equipo de ingeniería dedicado que despliega cambios varias veces por semana, o workflows que manejan decisiones de alto riesgo como crédito, salud o cumplimiento regulatorio.

En esos escenarios, herramientas como Langsmith, Braintrust o una implementación personalizada de evals con integración a CI/CD tienen más sentido. Pero mientras no llegues a eso, el sistema descrito aquí cubre el 90% de lo que necesitas sin complejidad innecesaria.

Evals y workflows IA: próximos pasos para tu PyME

Montar evals para 3 workflows IA toma 2 días de trabajo real y cuesta menos de lo que gastas en café de oficina al mes. El dataset dorado es el activo que más valor acumula con el tiempo: cada caso borde que agregas hace el sistema más robusto y reduce la probabilidad de que una regresión pase desapercibida.

Empieza con el workflow más crítico para el negocio, el que, si falla, genera el mayor impacto operativo o de reputación. Mide durante 4 semanas para entender la variabilidad base y calibrar los umbrales. Luego expande a los otros 2 workflows con el mismo proceso ya probado.

Los evals no eliminan los problemas en tus workflows IA, pero te permiten detectarlos antes de que se conviertan en problemas de negocio. Esa es la diferencia entre operar con confianza y operar con la esperanza de que todo siga funcionando.

¿Necesitas ayuda para construir evals y workflows IA?

Kreante acompaña a PyMEs y founders en LatAm que quieren reemplazar SaaS caro con IA personalizada. Hemos shipped 265 proyectos (60% LowCode/AI, 70% B2B) en US, Europa y LatAm.

Agenda una llamada de 30 minutos con Kreante