Los bakeoffs le dicen qué prompt es mejor en un momento dado. Pero los prompts se degradan. Las actualizaciones de modelos cambian el comportamiento. Las distribuciones de entrada cambian. Una receta que puntuó 92 el mes pasado podría puntuar 74 hoy, y no lo sabrá hasta que un cliente se queje.
Necesita monitoreo continuo, no evaluación de una sola vez. Eso es lo que hace Quality Guard.
Cómo funciona Quality Guard
Quality Guard se adjunta a cualquier receta desde su página de detalle. Una vez habilitado, muestrea ejecuciones de producción a una tasa configurable — por defecto 5%, ajustable del 1% al 20%. Cada ejecución muestreada es automáticamente puntuada por un juez LLM usando criterios ponderados.
La puntuación es disparar-y-olvidar: nunca bloquea la completitud de la ejecución. La latencia de producción no se ve afectada. La evaluación ocurre asincrónicamente después de que la ejecución termina.
Dos controles mantienen los costos predecibles:
- Tope de presupuesto diario — Por defecto 20 evaluaciones por día, configurable de 1 a 100
- Modelo juez — Por defecto es Claude Haiku 4.5 para eficiencia de costos. Cambie a Sonnet para evaluaciones de mayor precisión cuando las apuestas lo justifiquen
El rastreo de presupuesto está respaldado por Redis con comportamiento fail-open — si Redis no está disponible temporalmente, las evaluaciones continúan en lugar de descartarse silenciosamente.
Criterios de evaluación
Cada ejecución muestreada se puntúa de 0 a 100 usando criterios ponderados:
| Criterio | Peso | Qué mide |
|---|---|---|
| Relevancia | 30% | Qué tan bien la salida aborda la entrada |
| Completitud | 25% | Si todos los aspectos de la solicitud están cubiertos |
| Claridad | 20% | Organización y legibilidad |
| Precisión | 15% | Corrección factual, ausencia de alucinaciones |
| Formato | 10% | Adherencia a la estructura de salida esperada |
Estos son los valores por defecto. Puede personalizar los criterios, ajustar los pesos y cambiar el modelo juez por receta. Una receta que genera JSON estructurado podría ponderar Formato al 40%. Una receta de resumen de investigación podría ponderar Precisión al 35%.
Establecimiento de línea base
Cuando habilita Quality Guard por primera vez, entra en una fase de recopilación. Las evaluaciones se acumulan sin ningún análisis de deriva — no hay línea base contra la cual comparar aún.
Después de 20 evaluaciones (configurable), la línea base se calcula automáticamente. Almacena:
- Media y desviación estándar de las puntuaciones generales
- Percentiles: p5, p25, p50, p75, p95
- Estadísticas por criterio — media y desviación estándar para cada criterio individual
Una vez que la línea base se establece, se envía una notificación a todos los destinatarios de alertas configurados. A partir de ese momento, cada nueva evaluación se compara contra la línea base.
Puede reiniciar o recalcular manualmente la línea base en cualquier momento — útil después de un cambio deliberado de prompt que espera que cambie las puntuaciones.
Detección de deriva
Quality Guard usa una ventana deslizante de evaluaciones recientes (por defecto 30, mínimo 5) para detectar dos tipos de deriva:
Caídas de puntuación. La media deslizante se compara contra la media de la línea base. Dos umbrales activan alertas:
- Advertencia — Caída de 10 puntos desde la línea base (configurable 5-30)
- Crítico — Caída de 20 puntos desde la línea base (configurable 10-50)
Picos de varianza. Si la desviación estándar deslizante excede 2x la desviación estándar de la línea base, Quality Guard lo señala como calidad que se está volviendo inconsistente — incluso si la media no ha cambiado. Esto detecta situaciones donde una receta alterna entre salidas excelentes y terribles.
El requisito mínimo de 5 evaluaciones para la ventana deslizante previene falsos positivos por ruido temprano.
Alertas
Cuando se detecta deriva, Quality Guard notifica a través de dos canales:
Notificaciones en la aplicación van a todos los destinatarios de alertas configurados inmediatamente. Cada notificación incluye el nivel de severidad, la puntuación deslizante actual, la puntuación de la línea base y la magnitud de la deriva.
Alertas por email usan estilo con colores de severidad — rojo para deriva crítica, ámbar para advertencias. Los emails incluyen las mismas métricas más un enlace directo al panel de calidad de la receta.
Un período de enfriamiento de alertas previene la fatiga de notificaciones. El valor por defecto es 6 horas (configurable de 60 a 1440 minutos). Durante el enfriamiento, la deriva sigue rastreándose pero las alertas adicionales se suprimen. Todas las alertas son reconocibles y rastreadas — puede ver quién reconoció qué y cuándo.
Auto-remediación
Quality Guard no solo alerta. Actúa.
Refinamiento de prompt. Cuando se detecta deriva, Quality Guard activa automáticamente un análisis de refinamiento de prompt. Examina las ejecuciones recientes de mejor y peor puntuación, identifica patrones en lo que se está degradando y sugiere mejoras específicas al prompt. Límite: una vez cada 24 horas.
Mini-bakeoffs. Quality Guard puede auto-activar un mini-bakeoff comparando el prompt actual contra las mejoras sugeridas. Esto cierra el ciclo — se detecta la deriva, se propone una corrección y la corrección se evalúa, todo sin intervención manual. Límite: una vez cada 7 días.
Captura en base de conocimiento. Las salidas de alta calidad (puntuación >= 85) se capturan automáticamente en la base de conocimiento de la receta, construyendo una biblioteca de ejemplos excelentes con el tiempo.
Nominación few-shot. Las buenas salidas (puntuación >= 80) se auto-nominan como ejemplos few-shot para el prompt de la receta. Las mejores salidas enseñan a la receta cómo producir más salidas como ellas.
Panel de calidad
El panel de calidad le da visibilidad en todas las recetas monitoreadas.
Gráfico de tendencia. Una visualización SVG muestra la línea de puntuación (índigo), media de la línea base (verde punteado), banda de rango intercuartil (sombreado verde) y marcadores de deriva — círculos rojos para críticos, ámbar para advertencias. Ve exactamente cuándo la calidad cambió y por cuánto.
Sparklines de recetas. Cada receta monitoreada muestra un sparkline de tendencia de 14 días, un promedio deslizante de 7 días y una flecha de tendencia (arriba, abajo o estable). Escanee la lista e identifique inmediatamente qué recetas necesitan atención.
Desglose por criterio. Profundice en cualquier receta para ver cómo los criterios individuales están evolucionando. Una receta podría mantener alta Relevancia y Completitud mientras la Precisión se degrada — un patrón que es invisible en una puntuación agregada.
Reporte de mejora. Una vista resumen en todas las recetas: cuántas mejoraron, cuántas están estables, cuántas se degradaron. Cambio promedio de puntuación. Mini-bakeoffs activados. Esta es la vista para revisiones semanales del equipo.
Cómo Quality Guard difiere de los bakeoffs
Los bakeoffs y Quality Guard resuelven problemas diferentes:
| Bakeoffs | Quality Guard | |
|---|---|---|
| Temporalidad | De una vez, bajo demanda | Continuo, automatizado |
| Comparación | Relativa (A vs B) | Absoluta (vs línea base) |
| Propósito | Experimentar y elegir | Monitorear y mantener |
| Activación | Manual | Automática (muestreo de producción) |
Se complementan mutuamente. Quality Guard monitorea. Los bakeoffs experimentan. Cuando Quality Guard detecta deriva, puede auto-activar un bakeoff para probar una corrección. Cuando un bakeoff elige un ganador y usted lo despliega, Quality Guard establece una nueva línea base y vigila la próxima regresión.
Control de costos
Quality Guard está diseñado para ejecutarse indefinidamente sin costos descontrolados. Tres mecanismos mantienen el gasto predecible:
- Tasa de muestreo — Solo una fracción de las ejecuciones se evalúan (por defecto 5%)
- Tope de presupuesto diario — Límite duro de evaluaciones por día (por defecto 20)
- Elección de modelo juez — Haiku para monitoreo eficiente en costos, Sonnet para evaluación de alta precisión
Con configuración por defecto y Claude Haiku 4.5 como juez, una receta que se ejecuta 400 veces al día cuesta aproximadamente 20 evaluaciones de juez — bien dentro del tope de presupuesto. El rastreo de presupuesto respaldado por Redis asegura que el tope se aplique en todos los workers distribuidos.
Disponibilidad
Quality Guard está disponible en planes Pro y superiores. Conozca más sobre Quality Guard y otras funcionalidades o comience su prueba gratuita.