Skip to content
Producto

Test My Recipe: vea los resultados llegar en streaming antes de enviar a producción

La funcionalidad Test My Recipe de JieGou genera entradas sintéticas, ejecuta su receta contra cada una y transmite resultados de vuelta en tiempo real vía NDJSON — para que sepa exactamente cómo rinde una receta antes de que toque tráfico de producción.

JT
JieGou Team
· · 6 min de lectura

Construyó una receta. El prompt se ve bien. La ejecutó una vez con una entrada hecha a mano y la salida se veía bien. ¿Hora de desplegar?

No tan rápido. Una entrada no es una suite de pruebas. La receta podría manejar su ejemplo cuidadosamente escrito perfectamente y desmoronarse con las entradas desordenadas, incompletas y contradictorias que envían los usuarios reales. Desplegar sin pruebas sistemáticas es una apuesta — y la mayoría de los equipos no se dan cuenta de las probabilidades hasta que algo se rompe en producción.

Test My Recipe elimina la incertidumbre. Genere entradas realistas, ejecute la receta contra cada una y observe los resultados llegar en streaming antes de comprometerse con nada.

El problema con las pruebas manuales

La mayoría de los equipos prueban recetas de la misma manera: escribir una entrada, presionar ejecutar, leer la salida, repetir. Este enfoque tiene tres problemas.

Es lento. Escribir entradas a mano, esperar cada resultado y evaluar mentalmente la calidad toma minutos por prueba. Probar 20 variaciones toma una hora que no tiene.

Es sesgado. Usted escribe entradas basándose en lo que cree que los usuarios enviarán. Su modelo mental de la distribución de entradas es incorrecto — siempre lo es. Las entradas reales incluyen errores tipográficos, campos faltantes, instrucciones contradictorias y casos extremos que nunca imaginó.

No es repetible. No hay registro de qué probó, cuáles fueron los resultados ni si la receta mejoró después de su última edición de prompt. Cada ciclo de prueba comienza desde cero.

Generación de entradas realistas

Haga clic en el botón Test Recipe en la página de detalle de cualquier receta y JieGou genera entradas de prueba sintéticas para usted. La generación usa el esquema de entrada de la receta — nombres de campos, tipos, descripciones y cualquier ejemplo que haya proporcionado — para producir N variaciones realistas (configurable de 5 a 50).

Las entradas generadas no son ruido aleatorio. Cubren el espectro realista: entradas bien formadas, casos extremos con información mínima, entradas con requisitos conflictivos y entradas que empujan los límites de lo que la receta fue diseñada para manejar. Piénselo como un ingeniero QA automatizado que lee la especificación de su receta y escribe casos de prueba.

Puede revisar las entradas generadas antes de que comience la ejecución. Elimine las que no son relevantes, edite otras para apuntar a escenarios específicos o agregue sus propias entradas personalizadas al conjunto. El objetivo es una suite de pruebas que refleje la realidad, no un ejercicio sintético.

Streaming en tiempo real con NDJSON

Una vez que inicia la ejecución de prueba, JieGou ejecuta la receta contra cada entrada secuencialmente. Los resultados se transmiten de vuelta a su navegador en tiempo real usando NDJSON (JSON delimitado por nueva línea) — cada línea es un objeto JSON completo que representa un evento.

El TestMyRecipeModal progresa a través de cuatro fases:

  1. Inactivo — Listo para configurar e iniciar
  2. Generando — Las entradas sintéticas se están creando
  3. Ejecutando — La receta se está ejecutando contra cada entrada, con resultados llegando en streaming
  4. Completo — Todas las pruebas terminaron, resumen disponible

Durante la fase de Ejecución, ve los resultados llegar uno por uno. Sin esperar a que todo el lote termine. Sin spinner ocultando todo el progreso detrás de un solo estado de carga. Cada resultado aparece tan pronto como su ejecución se completa, para que pueda empezar a leer salidas mientras las pruebas posteriores aún se están ejecutando.

Esto importa para recetas de ejecución prolongada. Si su receta llama APIs externas o procesa documentos largos, las ejecuciones individuales pueden tomar 10-30 segundos. Sin streaming, probar 20 entradas significa mirar un spinner por varios minutos. Con streaming NDJSON, está revisando el primer resultado en segundos.

Lectura de resultados

Cuando la ejecución de prueba se completa, la vista de resultados le da dos niveles de detalle.

Las estadísticas de resumen muestran el panorama general de un vistazo: total de pruebas ejecutadas, conteo de éxitos, conteo de fallos, tiempo promedio de ejecución y uso promedio de tokens. Si 18 de 20 pruebas tuvieron éxito pero 2 fallaron, sabe inmediatamente que la receta tiene brechas que abordar.

Los acordeones por prueba le permiten profundizar en cada ejecución individual. Expanda cualquier prueba para ver la entrada enviada, la salida completa devuelta, el tiempo de ejecución, el conteo de tokens y cualquier mensaje de error. La comparación lado a lado de entrada y salida facilita juzgar si la receta entendió la solicitud y produjo un resultado útil.

La combinación funciona como las suites de prueba de código: el resumen le dice si algo está mal, y los detalles le dicen qué y dónde.

Integración con pista de auditoría

Cada ejecución de prueba se registra como una acción de auditoría recipe.tested. El registro de auditoría captura quién ejecutó la prueba, cuándo, qué receta se probó, cuántas entradas se generaron y el desglose de éxito/fallo.

Esto sirve dos propósitos. Primero, crea una pista de rendición de cuentas para equipos con requisitos de cumplimiento — puede demostrar que las recetas fueron probadas antes del despliegue. Segundo, le da un registro histórico de la actividad de pruebas. Cuando una receta comienza a comportarse mal en producción, puede verificar el log de auditoría para ver cuándo fue probada por última vez y cómo se veían los resultados.

Los registros de auditoría son visibles en el Operations Hub junto con otra actividad del sistema, para que las pruebas sean parte de la misma visibilidad operacional que las ejecuciones, aprobaciones y cambios de configuración.

Por qué esto importa para la confianza en producción

La brecha entre “funcionó cuando lo probé” y “funciona de manera confiable a escala” es donde ocurren la mayoría de los fallos de automatización de IA. Una receta podría manejar el 90% de las entradas perfectamente pero producir sin sentido para el otro 10%. Sin pruebas sistemáticas, esa tasa de fallo del 10% solo se vuelve visible después de que usuarios reales la encuentran.

Test My Recipe cierra esa brecha haciendo rápido y fácil ejecutar una suite de pruebas significativa antes de cada despliegue. Genere entradas, observe los resultados llegar en streaming, revise el resumen, corrija cualquier problema y pruebe de nuevo. El ciclo completo toma minutos, no horas.

Combinado con Quality Guard para monitoreo continuo y bakeoffs para comparación de prompts, Test My Recipe completa el ciclo de vida de calidad: pruebe antes de desplegar, compare cuando experimente, monitoree después de enviar.

Test My Recipe está disponible en todos los planes. Pruébelo ahora.

recipes testing streaming quality developer-experience
Compartir este artículo

¿Le gustó este artículo?

Reciba consejos sobre flujos de trabajo, actualizaciones de producto y guías de automatización en su bandeja de entrada.

No spam. Unsubscribe anytime.