Skip to content
Guides

Comment faire de l'A/B testing sur vos workflows IA

Un guide pratique pour mettre en place des tests A/B en production entre des variantes de Recipes et workflows IA en utilisant le système de routage bakeoff de JieGou.

JT
JieGou Team
· · 4 min de lecture

L’évaluation hors ligne vous indique quelle configuration IA semble meilleure sur des données de test. L’A/B testing vous indique laquelle performe mieux en production, avec de vrais utilisateurs et de vraies entrées. Le système de bakeoff de JieGou prend en charge les deux — et ce guide couvre le volet A/B testing en production.

Quand faire de l’A/B testing (vs. évaluation hors ligne)

Les bakeoffs hors ligne (comparer les sorties sur un ensemble fixe d’entrées) sont idéaux pour :

  • La sélection initiale de modèle avant le lancement
  • L’itération sur les prompts pendant le développement
  • La comparaison d’approches fondamentalement différentes

L’A/B testing en production est préférable lorsque :

  • Vous avez déjà réduit le choix à 2 candidats solides
  • Les entrées en production diffèrent de votre jeu de test de manière significative
  • Vous souhaitez mesurer la performance réelle dans le temps
  • L’adhésion des parties prenantes nécessite des données de production, pas des résultats de test

Mettre en place un test A/B

Voici le processus étape par étape dans JieGou :

Étape 1 : Créer un bakeoff avec routage A/B

Naviguez vers la section bakeoff et sélectionnez « A/B Test Routing » comme mode. Choisissez les deux variantes que vous souhaitez comparer — il peut s’agir de deux Recipes, deux configurations de modèle ou deux workflows.

Étape 2 : Configurer la répartition du trafic

Par défaut, le trafic se répartit 50/50 entre les variantes. Vous pouvez ajuster cela si vous souhaitez être conservateur — par exemple, 90/10 pour limiter l’exposition à la variante expérimentale tout en collectant des données.

Étape 3 : Définir les conditions d’arrêt automatique

JieGou utilise des tests statistiques chi-carré pour déterminer quand une variante est significativement meilleure que l’autre. Vous pouvez configurer :

  • Taille d’échantillon minimale — Ne déclarez pas de gagnant tant qu’au moins N exécutions n’ont pas été traitées par chaque variante
  • Seuil de significativité — Le seuil de p-value pour déclarer un gagnant (par défaut : 0,05)

Lorsque la condition d’arrêt automatique est atteinte, JieGou route automatiquement 100 % du trafic vers la variante gagnante et vous en notifie.

Étape 4 : Suivre les résultats

Pendant que le test est en cours, le tableau de bord du bakeoff affiche :

  • Le nombre d’exécutions par variante
  • Les scores LLM judge au fil du temps
  • La significativité statistique actuelle
  • Le temps estimé pour atteindre la significativité basé sur le trafic actuel

Étape 5 : Examiner et finaliser

Lorsque le test se termine (par arrêt automatique ou décision manuelle), examinez les résultats complets : distributions des scores, intervalles de confiance, comparaison des coûts et différences de temps d’exécution. Puis promouvez la variante gagnante comme défaut.

Garanties de cohérence

Les décisions de routage A/B sont mises en cache dans Redis. Une fois qu’un contexte d’exécution spécifique est assigné à une variante, il reste sur cette variante pendant toute la durée du test. Cela évite un comportement déroutant où la même Recipe produirait des résultats différents lors d’exécutions consécutives.

Que mesurer

Les scores LLM judge sont la métrique principale, mais considérez ces signaux supplémentaires :

  • Coût d’exécution — Une variante légèrement inférieure en qualité mais 60 % moins chère pourrait être le meilleur choix en production
  • Temps d’exécution — Des réponses plus rapides améliorent l’expérience utilisateur même si la qualité est égale
  • Taux d’erreur — Une variante qui échoue 5 % du temps est pire qu’une qui n’échoue jamais, même si ses succès obtiennent des scores plus élevés

Conseils pratiques

  • Exécutez les tests pendant au moins 48 heures pour capturer la variation des patterns d’entrée selon les différents moments de la journée et jours de la semaine
  • Ne testez pas trop de choses en A/B simultanément — changer le modèle et le prompt en même temps rend impossible l’attribution de la différence
  • Documentez votre hypothèse avant de commencer — « Je m’attends à ce que la variante Claude obtienne de meilleurs scores en nuance mais coûte 2x plus » vous aide à évaluer si les résultats sont exploitables
  • Utilisez d’abord les bakeoffs hors ligne pour réduire le champ, puis testez en A/B les 2 meilleurs candidats en production

Disponibilité

Le routage A/B test est disponible sur les plans Enterprise. Les bakeoffs hors ligne (Recipe vs. Recipe, modèle vs. modèle) sont disponibles sur Pro. En savoir plus sur tous les modes de bakeoff.

bakeoffs a-b-testing workflows guides
Partager cet article

Vous avez aime cet article ?

Recevez des astuces workflows, des mises a jour produit et des guides d'automatisation dans votre boite de reception.

No spam. Unsubscribe anytime.