LLM-as-Judge : comment fonctionne l'évaluation automatisée de l'IA

Évaluer la sortie IA est l’un des problèmes les plus difficiles en IA appliquée. L’évaluation humaine est l’étalon-or, mais elle est lente, coûteuse et ne passe pas à l’échelle. Le système de bakeoff de JieGou utilise le LLM-as-judge — une technique où un modèle de langage évalue la sortie d’un autre — pour automatiser le scoring de qualité avec rigueur statistique.

Voici comment ça fonctionne sous le capot.

La configuration de base

Dans un bakeoff, deux variantes (recettes, modèles ou workflows) traitent le même ensemble d’entrées. Chacune produit une sortie. Un juge LLM indépendant — séparé des modèles évalués — note chaque sortie sur des dimensions prédéfinies.

Le juge voit les deux sorties (anonymisées comme « Sortie A » et « Sortie B ») avec l’entrée originale et les critères de notation. Il produit un score structuré pour chaque dimension : qualité, précision, pertinence, complétude et un gagnant global.

Pourquoi utiliser un LLM comme juge ?

L’alternative est l’évaluation manuelle : faire lire chaque paire de sorties par un humain et les noter. Pour les petits tests (5-10 entrées), c’est faisable. Pour une analyse statistique significative (50-100+ entrées), ça devient un goulot d’étranglement.

Les juges LLM passent à l’échelle linéairement. Le coût est prévisible (ce sont juste des tokens), et l’évaluation est cohérente. Le jugement d’un humain dérive au cours d’une longue session d’évaluation ; celui d’un LLM non.

Le compromis est que les juges LLM ont des biais connus : ils tendent à préférer les sorties plus longues, le langage plus formel et les sorties qui correspondent à leur distribution d’entraînement. JieGou atténue cela en randomisant l’ordre de présentation (position A/B) et en supportant le consensus multi-juges.

Consensus multi-juges

Pour les évaluations à enjeux élevés, JieGou supporte 2-3 juges indépendants. Chaque juge note indépendamment, et le système mesure l’accord inter-juges avec deux métriques de corrélation de rang :

Le tau de Kendall mesure la proportion de paires de classement concordantes vs. discordantes entre juges. Un tau de 1,0 signifie un accord parfait ; 0,0 signifie aucune corrélation. En pratique, des valeurs de tau au-dessus de 0,7 indiquent un accord fort.

Le rho de Spearman mesure la corrélation d’ordre de rang. Des valeurs de rho au-dessus de 0,8 indiquent un accord fort.

Quand les juges divergent significativement (tau/rho faibles), le système signale le bakeoff pour revue humaine plutôt que de déclarer un gagnant.

Confiance statistique

Chaque score dans un bakeoff inclut :

Score moyen sur toutes les entrées
Écart-type montrant la constance du score
Intervalle de confiance à 95 % pour que vous connaissiez la plage de la vraie performance

Un bakeoff montrant la Variante A à 7,2 (IC : 6,8-7,6) vs. Variante B à 7,0 (IC : 6,5-7,5) a des intervalles de confiance qui se chevauchent — la différence n’est pas statistiquement significative.

Un bakeoff montrant la Variante A à 8,1 (IC : 7,7-8,5) vs. Variante B à 6,3 (IC : 5,9-6,7) a des intervalles qui ne se chevauchent pas — c’est un gagnant clair.

Recommandations pratiques

Sur la base de notre expérience avec des milliers de bakeoffs internes :

Commencez avec 20-30 entrées pour un signal initial, puis montez à 50-100 pour les décisions de production
Utilisez les entrées synthétiques quand vous n’avez pas assez de données réelles
Un seul juge suffit pour les différences claires (> 1 point d’écart). Utilisez le multi-juges pour les cas serrés
Vérifiez les intervalles de confiance avant d’agir — des intervalles qui se chevauchent signifient que vous avez besoin de plus de données, pas d’une décision
Variez vos juges — utiliser Claude pour juger les sorties de Claude peut introduire un biais d’auto-préférence ; le jugement inter-fournisseurs réduit cela

En savoir plus

Les bakeoffs sont disponibles sur les plans Pro et Enterprise. Voir la page complète des bakeoffs pour les détails sur les six modes d’évaluation.