Quality Guard : monitoring continu des sorties IA qui détecte la dérive avant vos utilisateurs

Le Quality Guard de JieGou échantillonne continuellement les exécutions de production, les note avec un juge LLM, établit des baselines de qualité et vous alerte quand la qualité de sortie dérive — avec auto-remédiation intégrée.

JieGou Team · 23 février 2026 · 5 min de lecture

Les Bakeoffs vous disent quel prompt est meilleur à un instant donné. Mais les prompts se dégradent. Les mises à jour de modèles changent le comportement. Les distributions d’entrée changent. Une recette qui avait un score de 92 le mois dernier pourrait avoir 74 aujourd’hui, et vous ne le saurez pas tant qu’un client ne se plaindra pas.

Vous avez besoin de monitoring continu, pas d’évaluation ponctuelle. C’est ce que fait Quality Guard.

Comment fonctionne Quality Guard

Quality Guard s’attache à n’importe quelle recette depuis sa page de détail. Une fois activé, il échantillonne les exécutions de production à un taux configurable — par défaut 5 %, ajustable de 1 % à 20 %. Chaque exécution échantillonnée est automatiquement notée par un juge LLM utilisant des critères pondérés.

Le scoring est fire-and-forget : il ne bloque jamais la complétion de l’exécution. Votre latence de production n’est pas affectée. L’évaluation se fait de manière asynchrone après la fin de l’exécution.

Deux contrôles gardent les coûts prévisibles :

Plafond de budget quotidien — Par défaut 20 évaluations par jour, configurable de 1 à 100
Modèle juge — Par défaut Claude Haiku 4.5 pour l’efficacité en coût. Passez à Sonnet pour des évaluations plus précises quand les enjeux le justifient

Le suivi de budget est soutenu par Redis avec un comportement fail-open — si Redis est temporairement indisponible, les évaluations continuent plutôt que d’être silencieusement abandonnées.

Critères d’évaluation

Chaque exécution échantillonnée est notée de 0 à 100 utilisant des critères pondérés :

Critère	Poids	Ce qu’il mesure
Pertinence	30 %	Dans quelle mesure la sortie répond à l’entrée
Complétude	25 %	Si tous les aspects de la requête sont couverts
Clarté	20 %	Organisation et lisibilité
Précision	15 %	Exactitude factuelle, absence d’hallucinations
Format	10 %	Adhésion à la structure de sortie attendue

Ce sont les valeurs par défaut. Vous pouvez personnaliser les critères, ajuster les poids et changer le modèle juge par recette.

Établissement de la baseline

Quand vous activez Quality Guard pour la première fois, il entre dans une phase de collecte. Les évaluations s’accumulent sans aucune analyse de dérive — il n’y a pas de baseline contre laquelle comparer.

Après 20 évaluations (configurable), la baseline est automatiquement calculée. Elle stocke :

Moyenne et écart-type des scores globaux
Percentiles : p5, p25, p50, p75, p95
Statistiques par critère — moyenne et écart-type pour chaque critère individuel

Une fois la baseline établie, une notification est envoyée à tous les destinataires d’alertes configurés. À partir de ce moment, chaque nouvelle évaluation est comparée à la baseline.

Détection de dérive

Quality Guard utilise une fenêtre glissante d’évaluations récentes (par défaut 30, minimum 5) pour détecter deux types de dérive :

Baisses de score. La moyenne glissante est comparée à la moyenne de la baseline. Deux seuils déclenchent des alertes :

Avertissement — Baisse de 10 points par rapport à la baseline (configurable 5-30)
Critique — Baisse de 20 points par rapport à la baseline (configurable 10-50)

Pics de variance. Si l’écart-type glissant dépasse 2x l’écart-type de la baseline, Quality Guard le signale comme une qualité devenant inconsistante — même si la moyenne n’a pas changé.

Alertes

Quand la dérive est détectée, Quality Guard notifie via deux canaux :

Notifications in-app envoyées immédiatement à tous les destinataires d’alertes configurés. Chaque notification inclut le niveau de sévérité, le score glissant actuel, le score de baseline et l’amplitude de la dérive.

Alertes email avec un style coloré par sévérité — rouge pour la dérive critique, ambre pour les avertissements. Les emails incluent les mêmes métriques plus un lien direct vers le tableau de bord qualité de la recette.

Un temps de refroidissement des alertes empêche la fatigue de notifications. La valeur par défaut est 6 heures (configurable de 60 à 1440 minutes).

Auto-remédiation

Quality Guard ne fait pas qu’alerter. Il agit.

Affinement de prompt. Quand la dérive est détectée, Quality Guard déclenche automatiquement une analyse d’affinement de prompt. Il examine les exécutions les mieux et les moins bien notées récemment, identifie les patterns de ce qui se dégrade et suggère des améliorations spécifiques de prompt. Limite : une fois par 24 heures.

Mini-bakeoffs. Quality Guard peut auto-déclencher un mini-bakeoff comparant le prompt actuel contre les améliorations suggérées. Limite : une fois par 7 jours.

Capture de base de connaissances. Les sorties de haute qualité (score >= 85) sont automatiquement capturées dans la base de connaissances de la recette.

Nomination few-shot. Les bonnes sorties (score >= 80) sont auto-nominées comme exemples few-shot pour le prompt de la recette.

Tableau de bord qualité

Le tableau de bord qualité vous donne de la visibilité sur toutes les recettes surveillées.

Graphique de tendance. Une visualisation SVG montre la ligne de score (indigo), la moyenne de baseline (vert pointillé), la bande interquartile (ombrage vert) et les marqueurs de dérive — cercles rouges pour critique, ambre pour avertissements.

Sparklines de recettes. Chaque recette surveillée affiche un sparkline de tendance sur 14 jours, une moyenne glissante sur 7 jours et une flèche de tendance (hausse, baisse ou stable).

Ventilation par critère. Explorez n’importe quelle recette pour voir comment les critères individuels évoluent.

Rapport d’amélioration. Une vue résumée sur toutes les recettes : combien se sont améliorées, combien sont stables, combien se sont dégradées.

Disponibilité

Quality Guard est disponible sur les plans Pro et supérieurs. En savoir plus sur Quality Guard et les autres fonctionnalités ou commencez votre essai gratuit.