JieGou prend en charge les modèles d’Anthropic, OpenAI et Google. Nous l’avons construit ainsi parce qu’aucun modèle unique n’est le meilleur en tout — et après avoir exécuté notre pipeline Recipe Factory sur des milliers d’exécutions de tests automatisés, les données le confirment.
Voici ce que nous avons observé sur la performance des modèles à travers de vraies tâches métier, pas des benchmarks synthétiques.
Génération de contenu : Claude domine sur la structure
Pour des tâches comme les plans d’articles de blog, la rédaction d’emails, les résumés de propositions et les communications clients, les modèles Claude produisent systématiquement une sortie mieux structurée. La rédaction est organisée en sections claires, suit de près le format demandé et maintient un ton professionnel sans être rigide.
Claude Sonnet 4.5 est le point d’équilibre pour la plupart des générations de contenu. Il est assez rapide pour un usage interactif, produit une prose de haute qualité et suit les schémas de sortie de manière fiable. Opus 4.5 produit une sortie marginalement meilleure pour les tâches de rédaction complexes mais à un coût et une latence significativement plus élevés.
GPT-5.1 est compétitif sur la génération de contenu, particulièrement pour les sorties plus courtes comme les objets d’emails, les publications sur les réseaux sociaux et les textes publicitaires. Il est performant pour correspondre à des tons et styles spécifiques lorsqu’on lui donne des exemples.
Gemini 2.5 Pro gère la génération de contenu de manière adéquate mais tend vers une sortie plus verbeuse. Il fonctionne bien quand vous voulez une couverture complète d’un sujet mais nécessite plus de discipline de schéma pour garder la sortie ciblée.
Extraction de données : les modèles moins chers suffisent
Extraire des données structurées de texte non structuré — traitement de factures, screening de CV, triage de tickets — ne nécessite pas de modèles frontier. La tâche est bien définie : lire l’entrée, identifier les champs pertinents, remplir le schéma.
Claude Haiku 4.5 et GPT-5-mini performent tous les deux bien sur les tâches d’extraction pour une fraction du coût. Ils suivent les schémas de sortie de manière fiable et gèrent les variations de format dans le texte d’entrée sans problème.
Gemini 2.5 Flash Lite est l’option la plus rentable pour l’extraction à haut volume. La performance est comparable aux autres modèles légers à des prix de tokens inférieurs.
L’insight clé : ne payez pas pour de la capacité de raisonnement quand la tâche est du pattern matching. Un modèle qui coûte 0,25 $ par million de tokens extrait les données de facture aussi bien qu’un qui coûte 15 $ par million de tokens.
Analyse complexe : les modèles de raisonnement méritent leur coût
Les analyses SWOT, la revue de clauses contractuelles, l’évaluation des risques de deals et la planification stratégique nécessitent que le modèle considère de multiples facteurs, pèse les compromis et produise des conclusions nuancées. C’est là que les modèles frontier et de raisonnement se différencient.
Claude Opus 4.5 avec la réflexion étendue produit les analyses les plus approfondies. Le budget de réflexion (10K tokens) lui donne la place pour travailler à travers un raisonnement complexe avant de produire la sortie finale. Il détecte les cas limites et les nuances que les modèles plus rapides manquent.
o3 (le modèle de raisonnement d’OpenAI) adopte une approche différente — il utilise le raisonnement en chaîne de pensée avec un effort moyen par défaut. La sortie est solide sur l’analyse logique et le raisonnement quantitatif. Il est particulièrement bon pour les tâches avec des critères clairs (scoring de deals, vérification de conformité).
Gemini 3 Pro avec support de raisonnement produit des analyses solides mais inclut occasionnellement des observations tangentielles qui nécessitent de la discipline de schéma pour les contraindre.
Conformité de schéma : tous les modèles modernes sont bons
Une préoccupation des équipes est de savoir si l’IA suivra réellement le schéma de sortie. Dans nos tests sur des milliers d’exécutions, tous les modèles de génération actuelle produisent une sortie structurée valide à des taux supérieurs à 95 %. Le facteur clé n’est pas le modèle — c’est la définition du schéma.
Des schémas clairs avec des descriptions de champs, des contraintes d’enum et des exemples produisent une meilleure conformité que des schémas minimalistes qui laissent le modèle deviner. Un champ défini comme risk_level (enum: high, medium, low) — Évaluation globale des risques basée sur l'analyse des clauses est rempli correctement de manière plus fiable que risk_level (string).
Recherche web : varie selon le fournisseur
Pour les Recipes qui ont besoin d’informations actuelles — recherche de prospects, analyse concurrentielle, mises à jour réglementaires — la capacité de recherche web compte.
Les trois fournisseurs prennent en charge la recherche web, mais l’implémentation diffère :
- Claude avec recherche web produit une recherche bien sourcée avec des citations spécifiques
- GPT-5.x avec recherche web est performant pour synthétiser plusieurs sources en un narratif cohérent
- Gemini avec recherche web bénéficie de l’infrastructure de recherche de Google et tend à faire émerger des sources plus diversifiées
Pour la recherche de prospects spécifiquement, nous avons trouvé que Claude et GPT produisent la sortie la plus actionnable. Pour la recherche de marché plus large, la largeur de recherche de Gemini peut faire émerger des sources que les autres manquent.
La recommandation pratique
La plupart des équipes n’ont pas besoin d’exécuter des benchmarks. Voici la configuration de départ qui fonctionne pour la majorité des cas d’usage :
| Type de tâche | Modèle recommandé | Pourquoi |
|---|---|---|
| Génération de contenu | Claude Sonnet 4.5 | Meilleure structure et ton |
| Extraction de données | Claude Haiku 4.5 | Rapide, peu coûteux, précis |
| Analyse complexe | Claude Opus 4.5 | Raisonnement le plus approfondi |
| Classification rapide | GPT-5-mini | Latence la plus faible |
| Lot à haut volume | Gemini 2.5 Flash Lite | Coût le plus bas |
| Recherche avec recherche web | Claude Sonnet 4.5 | Sortie la mieux sourcée |
Puis optimisez à partir de là. Exécutez la même Recipe avec différents modèles en utilisant les mêmes entrées et comparez la qualité de sortie. JieGou suit le temps d’exécution, le comptage de tokens et vous permet d’attacher un feedback de qualité à chaque exécution, rendant la comparaison simple.
Optimisation par étape dans les workflows
La vraie puissance est de combiner les modèles au sein d’un seul workflow. Un workflow de cinq étapes pourrait utiliser trois modèles différents :
- Extraire les données (Haiku) — rapide, peu coûteux
- Analyser les patterns (Sonnet) — équilibré
- Rédiger le résumé (Haiku) — rapide, peu coûteux
- Générer les recommandations stratégiques (Opus) — plus haute qualité
- Formater pour l’email (Haiku) — rapide, peu coûteux
Les étapes 1, 3 et 5 n’ont pas besoin de raisonnement coûteux. Les étapes 2 et 4 si. Mixer les modèles au niveau de l’étape optimise à la fois le coût et la qualité à travers le workflow.