Comment faire de l'A/B testing sur vos workflows IA

L’évaluation hors ligne vous indique quelle configuration IA semble meilleure sur des données de test. L’A/B testing vous indique laquelle performe mieux en production, avec de vrais utilisateurs et de vraies entrées. Le système de bakeoff de JieGou prend en charge les deux — et ce guide couvre le volet A/B testing en production.

Quand faire de l’A/B testing (vs. évaluation hors ligne)

Les bakeoffs hors ligne (comparer les sorties sur un ensemble fixe d’entrées) sont idéaux pour :

La sélection initiale de modèle avant le lancement
L’itération sur les prompts pendant le développement
La comparaison d’approches fondamentalement différentes

L’A/B testing en production est préférable lorsque :

Vous avez déjà réduit le choix à 2 candidats solides
Les entrées en production diffèrent de votre jeu de test de manière significative
Vous souhaitez mesurer la performance réelle dans le temps
L’adhésion des parties prenantes nécessite des données de production, pas des résultats de test

Mettre en place un test A/B

Voici le processus étape par étape dans JieGou :

Étape 1 : Créer un bakeoff avec routage A/B

Naviguez vers la section bakeoff et sélectionnez « A/B Test Routing » comme mode. Choisissez les deux variantes que vous souhaitez comparer — il peut s’agir de deux Recipes, deux configurations de modèle ou deux workflows.

Étape 2 : Configurer la répartition du trafic

Par défaut, le trafic se répartit 50/50 entre les variantes. Vous pouvez ajuster cela si vous souhaitez être conservateur — par exemple, 90/10 pour limiter l’exposition à la variante expérimentale tout en collectant des données.

Étape 3 : Définir les conditions d’arrêt automatique

JieGou utilise des tests statistiques chi-carré pour déterminer quand une variante est significativement meilleure que l’autre. Vous pouvez configurer :

Taille d’échantillon minimale — Ne déclarez pas de gagnant tant qu’au moins N exécutions n’ont pas été traitées par chaque variante
Seuil de significativité — Le seuil de p-value pour déclarer un gagnant (par défaut : 0,05)

Lorsque la condition d’arrêt automatique est atteinte, JieGou route automatiquement 100 % du trafic vers la variante gagnante et vous en notifie.

Étape 4 : Suivre les résultats

Pendant que le test est en cours, le tableau de bord du bakeoff affiche :

Le nombre d’exécutions par variante
Les scores LLM judge au fil du temps
La significativité statistique actuelle
Le temps estimé pour atteindre la significativité basé sur le trafic actuel

Étape 5 : Examiner et finaliser

Lorsque le test se termine (par arrêt automatique ou décision manuelle), examinez les résultats complets : distributions des scores, intervalles de confiance, comparaison des coûts et différences de temps d’exécution. Puis promouvez la variante gagnante comme défaut.

Garanties de cohérence

Les décisions de routage A/B sont mises en cache dans Redis. Une fois qu’un contexte d’exécution spécifique est assigné à une variante, il reste sur cette variante pendant toute la durée du test. Cela évite un comportement déroutant où la même Recipe produirait des résultats différents lors d’exécutions consécutives.

Que mesurer

Les scores LLM judge sont la métrique principale, mais considérez ces signaux supplémentaires :

Coût d’exécution — Une variante légèrement inférieure en qualité mais 60 % moins chère pourrait être le meilleur choix en production
Temps d’exécution — Des réponses plus rapides améliorent l’expérience utilisateur même si la qualité est égale
Taux d’erreur — Une variante qui échoue 5 % du temps est pire qu’une qui n’échoue jamais, même si ses succès obtiennent des scores plus élevés

Conseils pratiques

Exécutez les tests pendant au moins 48 heures pour capturer la variation des patterns d’entrée selon les différents moments de la journée et jours de la semaine
Ne testez pas trop de choses en A/B simultanément — changer le modèle et le prompt en même temps rend impossible l’attribution de la différence
Documentez votre hypothèse avant de commencer — « Je m’attends à ce que la variante Claude obtienne de meilleurs scores en nuance mais coûte 2x plus » vous aide à évaluer si les résultats sont exploitables
Utilisez d’abord les bakeoffs hors ligne pour réduire le champ, puis testez en A/B les 2 meilleurs candidats en production

Disponibilité

Le routage A/B test est disponible sur les plans Enterprise. Les bakeoffs hors ligne (Recipe vs. Recipe, modèle vs. modèle) sont disponibles sur Pro. En savoir plus sur tous les modes de bakeoff.