GPT-5 in preview. Claude 4.6 GA. Gemini 2.5 Pro. Llama 4 open-weight. Every platform now supports multiple models — only JieGou lets you prove which is best on your data.

Ne vous contentez pas d'exécuter l'IA —
mesurez son efficacité

Comparez recettes, modèles et workflows complets côte à côte. Utilisez la notation par juges LLM, le consensus multi-juges et le routage A/B en temps réel pour trouver la meilleure configuration pour chaque cas d'usage.

Contacter les ventes

Modes de Bakeoff

Six façons d'évaluer votre IA

De la simple comparaison de recettes au routage de trafic en temps réel, choisissez le mode d'évaluation adapté à vos besoins.

Recette vs Recette Pro

Comparez deux recettes différentes avec les mêmes entrées

Recette vs Modèle Pro

Même recette, fournisseur ou modèle LLM différent

Multi-juges Pro

2-3 juges LLM indépendants, notation par consensus

Workflow vs Workflow Enterprise

Comparaison complète de workflows de bout en bout

Routage A/B Enterprise

Répartition du trafic en temps réel avec arrêt automatique statistique

Entrées synthétiques Pro

Génération automatique de données de test à partir du schéma d'entrée

Comparaison de recettes

Recette vs recette, modèle vs modèle

Exécutez différentes recettes avec les mêmes entrées ou testez la même recette sur différents modèles. Visualisez les sorties côte à côte et laissez les juges LLM noter automatiquement chaque résultat en qualité, précision et pertinence.

Comparez deux recettes avec des entrées identiques
Testez la même recette sur différents fournisseurs LLM
Affichage côte à côte avec marquage des différences
Les juges LLM notent automatiquement chaque sortie

Évaluation multi-juges

Notation par consensus avec confiance statistique

Utilisez deux à trois juges LLM indépendants pour évaluer les sorties. JieGou calcule l'accord inter-juges avec le tau de Kendall et le rho de Spearman, et rapporte des intervalles de confiance à 95 % pour que vous sachiez quand les résultats sont statistiquement significatifs.

2-3 juges LLM indépendants par évaluation
Corrélation tau de Kendall et rho de Spearman
Intervalles de confiance à 95 % avec écart-type
Estimation des coûts avec multiplicateur multi-juges

Bakeoff de workflows

Comparez des workflows complets de bout en bout

Allez au-delà d'une seule recette. Faites s'affronter des workflows complets et comparez la qualité des sorties, le temps d'exécution et le coût de bout en bout. Idéal pour évaluer différentes stratégies d'automatisation avant de vous engager.

Exécution complète du workflow avec suivi des tokens
Comparaison du coût total et du temps d'exécution
Notation de la qualité de sortie de bout en bout
Disponible dans le plan Enterprise

Routage A/B

Répartition du trafic en temps réel avec arrêt automatique

Routez le trafic d'exécution en temps réel entre des variantes de recettes ou de workflows. JieGou suit les performances avec le test du chi-carré et arrête automatiquement le routage vers la variante perdante lorsque le gagnant atteint la significativité statistique.

Répartition du trafic en temps réel entre deux variantes
Test statistique du chi-carré pour confirmer la significativité
Arrêt automatique lorsque le gagnant est déterminé
Décisions de routage en cache Redis pour la cohérence

Entrées synthétiques

Génération automatique de données de test à partir du schéma

Pas assez de données réelles pour une comparaison significative ? JieGou génère des entrées synthétiques à partir du schéma d'entrée de votre recette ou workflow, sans effort manuel pour des cas de test diversifiés.

Génération d'entrées de test à partir de définitions JSON Schema
Données diversifiées et réalistes pour des comparaisons significatives
Aucune création manuelle de cas de test nécessaire
Supporte les schémas de recettes et de workflows

Comment ça marche

De la configuration aux résultats en quatre étapes

Choisissez le mode

Sélectionnez recette vs recette, modèle vs modèle, comparaison de workflows ou routage A/B.

Ajoutez les entrées

Utilisez des données réelles, générez des entrées synthétiques à partir du schéma, ou fournissez vos propres cas de test.

Lancez le Bakeoff

Les deux variantes s'exécutent simultanément. Les juges LLM notent chaque sortie indépendamment.

Consultez les résultats

Consultez les scores, intervalles de confiance, comparaisons de coûts et la variante gagnante.

Lancez votre premier Bakeoff

Trouvez la meilleure recette, le meilleur modèle ou workflow pour chaque cas d'usage avec des données, pas des suppositions.