GPT-5 in preview. Claude 4.6 GA. Gemini 2.5 Pro. Llama 4 open-weight. Every platform now supports multiple models — only JieGou lets you prove which is best on your data.
Ne vous contentez pas d'exécuter l'IA —
mesurez son efficacité
Comparez recettes, modèles et workflows complets côte à côte. Utilisez la notation par juges LLM, le consensus multi-juges et le routage A/B en temps réel pour trouver la meilleure configuration pour chaque cas d'usage.
Modes de Bakeoff
Six façons d'évaluer votre IA
De la simple comparaison de recettes au routage de trafic en temps réel, choisissez le mode d'évaluation adapté à vos besoins.
Comparez deux recettes différentes avec les mêmes entrées
Même recette, fournisseur ou modèle LLM différent
2-3 juges LLM indépendants, notation par consensus
Comparaison complète de workflows de bout en bout
Répartition du trafic en temps réel avec arrêt automatique statistique
Génération automatique de données de test à partir du schéma d'entrée
Comparaison de recettes
Recette vs recette, modèle vs modèle
Exécutez différentes recettes avec les mêmes entrées ou testez la même recette sur différents modèles. Visualisez les sorties côte à côte et laissez les juges LLM noter automatiquement chaque résultat en qualité, précision et pertinence.
- Comparez deux recettes avec des entrées identiques
- Testez la même recette sur différents fournisseurs LLM
- Affichage côte à côte avec marquage des différences
- Les juges LLM notent automatiquement chaque sortie
Évaluation multi-juges
Notation par consensus avec confiance statistique
Utilisez deux à trois juges LLM indépendants pour évaluer les sorties. JieGou calcule l'accord inter-juges avec le tau de Kendall et le rho de Spearman, et rapporte des intervalles de confiance à 95 % pour que vous sachiez quand les résultats sont statistiquement significatifs.
- 2-3 juges LLM indépendants par évaluation
- Corrélation tau de Kendall et rho de Spearman
- Intervalles de confiance à 95 % avec écart-type
- Estimation des coûts avec multiplicateur multi-juges
Bakeoff de workflows
Comparez des workflows complets de bout en bout
Allez au-delà d'une seule recette. Faites s'affronter des workflows complets et comparez la qualité des sorties, le temps d'exécution et le coût de bout en bout. Idéal pour évaluer différentes stratégies d'automatisation avant de vous engager.
- Exécution complète du workflow avec suivi des tokens
- Comparaison du coût total et du temps d'exécution
- Notation de la qualité de sortie de bout en bout
- Disponible dans le plan Enterprise
Routage A/B
Répartition du trafic en temps réel avec arrêt automatique
Routez le trafic d'exécution en temps réel entre des variantes de recettes ou de workflows. JieGou suit les performances avec le test du chi-carré et arrête automatiquement le routage vers la variante perdante lorsque le gagnant atteint la significativité statistique.
- Répartition du trafic en temps réel entre deux variantes
- Test statistique du chi-carré pour confirmer la significativité
- Arrêt automatique lorsque le gagnant est déterminé
- Décisions de routage en cache Redis pour la cohérence
Entrées synthétiques
Génération automatique de données de test à partir du schéma
Pas assez de données réelles pour une comparaison significative ? JieGou génère des entrées synthétiques à partir du schéma d'entrée de votre recette ou workflow, sans effort manuel pour des cas de test diversifiés.
- Génération d'entrées de test à partir de définitions JSON Schema
- Données diversifiées et réalistes pour des comparaisons significatives
- Aucune création manuelle de cas de test nécessaire
- Supporte les schémas de recettes et de workflows
Comment ça marche
De la configuration aux résultats en quatre étapes
Choisissez le mode
Sélectionnez recette vs recette, modèle vs modèle, comparaison de workflows ou routage A/B.
Ajoutez les entrées
Utilisez des données réelles, générez des entrées synthétiques à partir du schéma, ou fournissez vos propres cas de test.
Lancez le Bakeoff
Les deux variantes s'exécutent simultanément. Les juges LLM notent chaque sortie indépendamment.
Consultez les résultats
Consultez les scores, intervalles de confiance, comparaisons de coûts et la variante gagnante.
Lancez votre premier Bakeoff
Trouvez la meilleure recette, le meilleur modèle ou workflow pour chaque cas d'usage avec des données, pas des suppositions.