Perspectivas de ejecución: detección automatizada de anomalías para flujos de trabajo de IA

El panel de perspectivas de ejecución de JieGou detecta patrones de fallo, picos de costos, anomalías de latencia y agrupamiento de errores en sus recetas de IA — con perspectivas clasificadas por severidad y recomendaciones accionables, directamente en el Operations Hub.

JieGou Team · 3 de marzo de 2026 · 8 min de lectura

Ejecutar una receta es simple. Ejecutar 50 recetas en 8 departamentos, cada una llamando a diferentes proveedores de LLM con diferentes perfiles de costo y características de latencia, es un problema de operaciones. Las herramientas de monitoreo estándar pueden decirle si un servidor está caído. No pueden decirle que su receta de revisión de contratos empezó a costar 3x más tokens el martes pasado, o que tres recetas diferentes están fallando con errores semánticamente similares que apuntan al mismo problema upstream.

Las perspectivas de ejecución son un sistema de detección de anomalías construido específicamente para operaciones de flujos de trabajo de IA. Vive en el Operations Hub en la página /operations/landscape y analiza continuamente datos de ejecución para revelar problemas que de otra manera pasaría por alto.

Cuatro patrones de detección

Las perspectivas de ejecución ejecutan cuatro detectores especializados, cada uno diseñado para capturar una clase diferente de problema operacional.

Detección de patrones de fallo

El detector de fallos señala recetas cuya tasa de error excede el 20% durante la ventana de tiempo configurada. Una receta que falla una vez en 100 ejecuciones es normal. Una receta que falla 25 veces en 100 ejecuciones tiene un problema sistémico — una integración de API rota, un prompt que se atora con un nuevo patrón de entrada, o un modelo que empezó a rechazar ciertas solicitudes.

El detector no solo cuenta fallos. Examina la trayectoria de fallos. Una receta que pasó de una tasa de fallos del 2% al 22% en las últimas 48 horas es más urgente que una que ha estado rondando el 21% durante semanas. La perspectiva incluye qué recetas específicas están afectadas, el rango de tiempo durante el cual se detectó el patrón, y una recomendación para la investigación.

Detección de picos de costos

Los costos de LLM son proporcionales al uso de tokens, y el uso de tokens puede cambiar sin ningún cambio de código. Una actualización de modelo podría producir salidas más largas. Una fuente de datos upstream podría empezar a devolver documentos más grandes. Un refinamiento de prompt podría accidentalmente remover una restricción de longitud.

El detector de costos señala recetas cuyo uso de tokens ha aumentado más del 50% comparado con su línea base. La línea base se calcula a partir de datos de ejecución históricos dentro de la ventana de tiempo configurada. Cuando una receta que típicamente usa 2,000 tokens por ejecución empieza a promediar 3,500 tokens, el detector lo revela — junto con las recetas afectadas, la magnitud del aumento y el impacto estimado en costos.

Esta es una señal que las herramientas de monitoreo genéricas no proporcionan. CPU y memoria se ven bien. Los códigos de estado HTTP son todos 200. Pero su factura está creciendo 50% más rápido que su uso, y la razón está enterrada en datos de ejecución a nivel de tokens que solo un sistema de monitoreo específico de IA rastrea.

Detección de anomalías de latencia

El detector de latencia compara tiempos de ejecución recientes contra la línea base p95 y señala recetas que exceden 2x ese umbral. Una receta con una latencia p95 de 4 segundos que empieza a tomar regularmente 10 segundos tiene un problema — incluso si técnicamente se está completando exitosamente.

Las anomalías de latencia en flujos de trabajo de IA a menudo señalan problemas upstream: un proveedor de modelos experimentando degradación, una herramienta MCP tardando más en responder, o una consulta de base de conocimiento tomando un camino lento. La perspectiva incluye la p95 base, la latencia observada actual y qué recetas están afectadas, dándole suficiente contexto para comenzar el diagnóstico inmediatamente.

Agrupamiento de errores

Los errores individuales son ruido. Tres o más recetas fallando con mensajes de error semánticamente similares es un patrón. El detector de agrupamiento de errores agrupa errores entre recetas y señala agrupaciones de 3 o más errores similares dentro de la ventana de tiempo.

Esto captura fallos transversales que el monitoreo por receta no detecta. Si su clave de API de Anthropic expira, cinco recetas diferentes empezarán a fallar con errores de autenticación similares. Sin agrupamiento, usted ve cinco fallos separados. Con agrupamiento, ve una causa raíz afectando cinco recetas — y la recomendación le apunta hacia la dependencia compartida.

Clasificación de severidad y recomendaciones

Cada perspectiva se clasifica en uno de tres niveles de severidad:

Crítico — Atención inmediata requerida. Altas tasas de fallo, picos de costos extremos o grandes agrupaciones de errores que indican problemas sistémicos.
Advertencia — Degradación detectada pero aún no crítica. Aumentos moderados de costos, latencia elevada o patrones de fallo emergentes.
Info — Vale la pena saberlo pero no urgente. Desviaciones menores, anomalías de una sola receta o patrones que tienden hacia un umbral pero no lo han cruzado.

Cada perspectiva incluye una recomendación estructurada — no solo “investigue esta receta” sino pasos siguientes específicos. Una perspectiva de pico de costos podría recomendar verificar el prompt de la receta en busca de restricciones de longitud faltantes o comparar el uso de tokens antes y después de un cambio reciente de modelo. Una perspectiva de patrón de fallo podría recomendar revisar los registros de error de la receta para la razón principal de fallo.

Las perspectivas se muestran en el ExecutionInsightsPanel ordenadas por severidad, así que los problemas críticos siempre están arriba. Cada tarjeta de perspectiva muestra el tipo, severidad, título, descripción, recetas afectadas, rango de tiempo, recomendación y puntos de datos de soporte.

Configuración de rango de tiempo

La detección de anomalías es tan buena como la ventana que está mirando. Un pico que es alarmante en 7 días podría ser variación estacional normal en 90 días. Las perspectivas de ejecución soportan tres rangos de tiempo configurables:

7 días — Mejor para capturar problemas agudos. Línea base corta, alta sensibilidad.
30 días — Vista equilibrada. Suaviza la variación diaria mientras captura cambios semana a semana.
90 días — Tendencias a largo plazo. Mejor para identificar desviación gradual en costo o latencia que se acumula lentamente.

Cambiar entre rangos de tiempo actualiza los cuatro detectores simultáneamente, así que puede hacer referencia cruzada rápidamente de si una anomalía de 7 días también es visible a 30 días (problema real) o desaparece en ventanas más amplias (pico temporal).

Integración con Operations Hub

Las perspectivas de ejecución viven junto con las otras vistas del Operations Hub: panorama de automatización, gobernanza, analítica de ingresos, monitoreo de disponibilidad y monitoreo de seguridad. Esta ubicación es intencional. La detección de anomalías no es una herramienta independiente — es parte de la conciencia operacional.

La API de perspectivas es accesible en /api/insights/execution con permiso audit:read. Esto significa que cualquier miembro del equipo con visibilidad operacional puede consultar perspectivas programáticamente — alimentándolas a alertas de Slack, paneles externos o flujos de trabajo de remediación automatizada.

Por qué importa el monitoreo específico de IA

El monitoreo genérico de aplicaciones observa códigos de estado HTTP, tiempos de respuesta, tasas de error y utilización de recursos. Estas métricas importan, pero pierden las señales que son únicas de los flujos de trabajo de IA.

El costo de tokens es invisible para herramientas APM. Una receta puede devolver HTTP 200 con una salida correcta y aún costar 3x lo que debería porque el modelo está generando respuestas innecesariamente verbosas. Las perspectivas de ejecución rastrean el uso de tokens a nivel de receta y detectan cuando los costos divergen de las líneas base.

La latencia del modelo no es la latencia del servidor. Un tiempo de respuesta de 12 segundos podría ser normal para una receta que llama a Claude Opus con una ventana de contexto de 50,000 tokens. Los mismos 12 segundos de una receta Haiku que normalmente se completa en 2 segundos es una señal de alerta. Las perspectivas de ejecución mantienen líneas base por receta en lugar de aplicar umbrales de latencia únicos para todos.

El agrupamiento semántico de errores requiere entender mensajes de error. El monitoreo tradicional agrupa errores por código de estado HTTP o clase de error. Las perspectivas de ejecución agrupan errores por similitud semántica, capturando patrones como “rate limit exceeded” y “too many requests” como el mismo problema subyacente aunque sean cadenas diferentes.

Estas son las señales que le dicen si su automatización de IA está saludable — no solo si sus servidores están ejecutándose.

Las perspectivas de ejecución están disponibles en planes Team y Enterprise. Explore el Operations Hub o inicie su prueba gratuita.