Skip to content
Guías

Cómo Hacer Pruebas A/B en Sus Workflows de IA

Una guía práctica para configurar pruebas A/B en vivo entre variantes de recipes y workflows de IA utilizando el sistema de enrutamiento bakeoff de JieGou.

JT
JieGou Team
· · 4 min de lectura

La evaluación offline le dice qué configuración de IA se ve mejor en datos de prueba. Las pruebas A/B le dicen cuál funciona mejor en producción, con usuarios reales e inputs reales. El sistema de bakeoff de JieGou soporta ambos — y esta guía cubre el lado de pruebas A/B en vivo.

Cuándo hacer pruebas A/B (vs. evaluación offline)

Los bakeoffs offline (comparar outputs en un conjunto fijo de inputs) son excelentes para:

  • Selección inicial de modelo antes del lanzamiento
  • Iteración de prompts durante el desarrollo
  • Comparar enfoques fundamentalmente diferentes

Las pruebas A/B en vivo son mejores cuando:

  • Ya ha reducido las opciones a 2 candidatos fuertes
  • Los inputs de producción difieren de su conjunto de pruebas en formas que importan
  • Desea medir el rendimiento del mundo real a lo largo del tiempo
  • La aprobación de los interesados requiere datos de producción, no resultados de pruebas

Configuración de una prueba A/B

Aquí está el proceso paso a paso en JieGou:

Paso 1: Cree un bakeoff con enrutamiento A/B

Navegue a la sección de bakeoff y seleccione “A/B Test Routing” como modo. Elija las dos variantes que desea comparar — pueden ser dos recipes, dos configuraciones de modelo o dos workflows.

Paso 2: Configure la distribución de tráfico

Por defecto, el tráfico se divide 50/50 entre variantes. Puede ajustar esto si desea ser conservador — por ejemplo, 90/10 para limitar la exposición a la variante experimental mientras aún recopila datos.

Paso 3: Establezca condiciones de detención automática

JieGou utiliza pruebas estadísticas chi-cuadrado para determinar cuándo una variante es significativamente mejor que la otra. Puede configurar:

  • Tamaño mínimo de muestra — No declarar un ganador hasta que al menos N ejecuciones hayan pasado por cada variante
  • Umbral de significancia — El umbral de valor p para declarar un ganador (predeterminado: 0.05)

Cuando se cumple la condición de detención automática, JieGou automáticamente enruta el 100% del tráfico a la variante ganadora y le notifica.

Paso 4: Monitoree los resultados

Mientras la prueba se ejecuta, el panel de bakeoff muestra:

  • Conteo de ejecuciones por variante
  • Puntuaciones del juez LLM a lo largo del tiempo
  • Significancia estadística actual
  • Tiempo estimado para alcanzar significancia basado en el tráfico actual

Paso 5: Revise y finalice

Cuando la prueba concluye (ya sea por detención automática o decisión manual), revise los resultados completos: distribuciones de puntuación, intervalos de confianza, comparación de costos y diferencias en tiempo de ejecución. Luego promueva la variante ganadora como predeterminada.

Garantías de consistencia

Las decisiones de enrutamiento A/B se almacenan en caché en Redis. Una vez que un contexto de ejecución específico se asigna a una variante, permanece en esa variante durante la duración de la prueba. Esto previene un comportamiento confuso donde la misma recipe produce resultados diferentes en ejecuciones consecutivas.

Qué medir

Las puntuaciones del juez LLM son la métrica principal, pero considere estas señales adicionales:

  • Costo de ejecución — Una variante de calidad ligeramente inferior que cuesta 60% menos podría ser la mejor opción para producción
  • Tiempo de ejecución — Respuestas más rápidas mejoran la experiencia del usuario incluso si la calidad es igual
  • Tasa de error — Una variante que falla el 5% de las veces es peor que una que nunca falla, incluso si sus éxitos obtienen puntuaciones más altas

Consejos prácticos

  • Ejecute pruebas por al menos 48 horas para capturar variación en los patrones de input en diferentes momentos del día y días de la semana
  • No pruebe demasiadas cosas a la vez — cambiar el modelo y el prompt simultáneamente hace imposible atribuir la diferencia
  • Documente su hipótesis antes de comenzar — “Espero que la variante de Claude obtenga puntuaciones más altas en matices pero cueste 2x más” le ayuda a evaluar si los resultados son accionables
  • Use bakeoffs offline primero para reducir el campo, luego haga pruebas A/B con los 2 mejores candidatos en producción

Disponibilidad

El enrutamiento de pruebas A/B está disponible en los planes Enterprise. Los bakeoffs offline (recipe vs. recipe, modelo vs. modelo) están disponibles en Pro. Conozca más sobre todos los modos de bakeoff.

bakeoffs a-b-testing workflows guides
Compartir este artículo

¿Le gustó este artículo?

Reciba consejos sobre flujos de trabajo, actualizaciones de producto y guías de automatización en su bandeja de entrada.

No spam. Unsubscribe anytime.