Presentamos Bakeoffs: compare recetas de IA, modelos y flujos de trabajo

Cuando construye una receta de IA, ¿cómo sabe que es la mejor versión? Cuando elige un modelo, ¿cómo sabe que es el correcto para la tarea? La mayoría de los equipos confían en la intuición — lo ejecutan algunas veces, revisan la salida a ojo y siguen adelante. Eso funciona para prototipos, pero no para producción.

Hoy lanzamos bakeoffs: un sistema integrado para comparar recetas de IA, modelos y flujos de trabajo completos con evaluación rigurosa y automatizada.

¿Qué es un bakeoff?

Un bakeoff ejecuta las mismas entradas a través de dos o más configuraciones de IA y puntúa los resultados. La puntuación la realiza un juez LLM independiente — no el modelo que produjo la salida — para que la evaluación sea tan objetiva como una evaluación automatizada puede ser.

Puede comparar en seis modos:

Receta vs. receta — Dos recetas diferentes procesando las mismas entradas
Modelo vs. modelo — La misma receta en diferentes proveedores de LLM (ej., Claude vs. GPT)
Matriz completa — Cada combinación de receta × modelo en una sola cuadrícula de evaluación
Flujo de trabajo vs. flujo de trabajo — Ejecución completa de extremo a extremo comparada lado a lado
Modelo de flujo de trabajo vs. modelo — El mismo flujo de trabajo ejecutado con diferentes proveedores de LLM en sus pasos
Prueba A/B — División de tráfico en vivo que enruta ejecuciones reales de recetas entre dos variantes

Cómo funciona la puntuación

Cada salida es puntuada por un juez LLM en dimensiones como calidad, precisión, relevancia e integridad.

Para mayor confianza, habilite el modo multi-juez con 2-3 jueces independientes. JieGou calcula el acuerdo entre jueces usando coeficientes de correlación de rangos tau de Kendall y rho de Spearman, para que pueda ver si los jueces convergen o discrepan. Los resultados incluyen intervalos de confianza del 95% y desviaciones estándar, indicándole cuándo un resultado es estadísticamente significativo versus ruido.

Entradas sintéticas

¿No tiene suficientes datos reales para una comparación significativa? El generador de entradas sintéticas crea casos de prueba diversos a partir de los esquemas de entrada de su receta o flujo de trabajo. Lee las definiciones JSON Schema — nombres de campos, tipos, descripciones y restricciones — y produce entradas realistas que cubren un rango de escenarios.

Esto es especialmente útil para recetas nuevas que aún no han acumulado datos de uso del mundo real.

Enrutamiento de prueba A/B

Para recetas y flujos de trabajo ya en producción, los bakeoffs soportan enrutamiento de prueba A/B en vivo. El tráfico se divide entre dos variantes, y JieGou rastrea el rendimiento usando pruebas estadísticas chi-cuadrado. Cuando una variante alcanza significancia estadística, el enrutamiento deja automáticamente de enviar tráfico a la variante perdedora.

Las decisiones de enrutamiento se cachean en Redis para consistencia — el mismo usuario ve la misma variante entre solicitudes.

Plantillas de bakeoff

Configurar un bakeoff — elegir variantes, configurar jueces, seleccionar esquemas de entrada — requiere reflexión. Las plantillas le permiten guardar una configuración de bakeoff y reutilizarla después, para que no repita ese trabajo de configuración cada vez que quiera reevaluar.

Las plantillas soportan alcance de visibilidad: mantenerlas privadas, compartirlas con su departamento o hacerlas disponibles para toda la cuenta. Cuando su equipo establece una metodología de evaluación estándar para un caso de uso particular, guardarla como plantilla asegura que todos evalúen de manera consistente.

Cuándo usar bakeoffs

Los bakeoffs son más valiosos cuando:

Eligiendo un modelo — Está lanzando una nueva receta y quiere elegir entre Claude, GPT y Gemini basándose en calidad de salida, no en suposiciones
Iterando en prompts — Ha reescrito el prompt de una receta y quiere verificar que la nueva versión es realmente mejor antes de desplegarla
Optimizando costos — Un modelo más barato podría producir salida equivalente para ciertas tareas, pero necesita datos para probarlo
Comparando flujos de trabajo — Dos estrategias de automatización diferentes producen salidas diferentes, y necesita saber cuál es mejor de extremo a extremo

Disponibilidad

Los bakeoffs de recetas y modelos están disponibles en planes Pro. Los bakeoffs de flujos de trabajo y el enrutamiento de prueba A/B están disponibles en Enterprise. Conozca más sobre bakeoffs o inicie su prueba gratuita.