Exécuter une recette est simple. Exécuter 50 recettes dans 8 départements, chacune appelant différents fournisseurs LLM avec différents profils de coûts et caractéristiques de latence, est un problème opérationnel. Les outils de monitoring standard peuvent vous dire si un serveur est en panne. Ils ne peuvent pas vous dire que votre recette de revue de contrats a commencé à coûter 3x plus de tokens mardi dernier, ou que trois recettes différentes échouent avec des messages d’erreur sémantiquement similaires qui pointent vers le même problème en amont.
Execution Insights est un système de détection d’anomalies construit spécifiquement pour les opérations de workflows IA. Il vit dans le Hub Opérations et analyse continuellement les données d’exécution pour faire remonter les problèmes que vous manqueriez autrement.
Quatre schémas de détection
Détection de schémas de défaillance
Le détecteur signale les recettes dont le taux d’erreur dépasse 20 % sur la fenêtre de temps configurée. Il examine la trajectoire de défaillance — une recette passant de 2 % à 22 % de taux d’échec en 48 heures est plus urgente qu’une qui stagne à 21 % depuis des semaines.
Détection de pics de coûts
Le détecteur signale les recettes dont l’utilisation de tokens a augmenté de plus de 50 % par rapport à leur base de référence. C’est un signal que les outils de monitoring génériques ne fournissent pas — CPU et mémoire semblent normaux, mais votre facture croît 50 % plus vite que votre utilisation.
Détection d’anomalies de latence
Le détecteur compare les temps d’exécution récents au p95 de référence et signale les recettes dépassant 2x ce seuil. Les anomalies de latence dans les workflows IA signalent souvent des problèmes en amont : un fournisseur de modèles en dégradation, un outil MCP plus lent à répondre.
Regroupement d’erreurs
Les erreurs individuelles sont du bruit. Trois ou plus recettes échouant avec des messages d’erreur sémantiquement similaires sont un schéma. Le détecteur regroupe les erreurs à travers les recettes et signale les clusters de 3 erreurs similaires ou plus.
Classification de sévérité et recommandations
Chaque insight est classifié en trois niveaux de sévérité :
- Critique — Attention immédiate requise
- Avertissement — Dégradation détectée mais pas encore critique
- Info — À savoir mais pas urgent
Chaque insight inclut une recommandation structurée — pas juste « examinez cette recette » mais des étapes suivantes spécifiques.
Pourquoi le monitoring spécifique IA est important
Le coût en tokens est invisible pour les outils APM. Une recette peut retourner HTTP 200 avec une sortie correcte et quand même coûter 3x ce qu’elle devrait.
La latence du modèle n’est pas la latence serveur. Un temps de réponse de 12 secondes peut être normal pour une recette appelant Claude Opus avec une fenêtre de contexte de 50 000 tokens. Le même délai pour une recette Haiku qui se termine normalement en 2 secondes est un signal d’alarme.
Le regroupement d’erreurs sémantiques nécessite de comprendre les messages d’erreur. Le monitoring traditionnel regroupe les erreurs par code HTTP. Execution Insights les regroupe par similarité sémantique.
Execution Insights est disponible sur les plans Team et Enterprise. Explorez le Hub Opérations.