Chaque plateforme d’automatisation IA revendique le « support multi-modèle ». En pratique, cela signifie généralement que vous pouvez basculer entre GPT-4o et GPT-5 dans un menu déroulant des paramètres. Peut-être que Claude est aussi listé. Si vous voulez exécuter un modèle open source, vous êtes livré à vous-même.
JieGou adopte une approche différente. Nous avons construit une couche de modèle universelle qui traite chaque LLM — hébergé dans le cloud ou auto-hébergé, propriétaire ou open source — comme un citoyen de première classe. Cet article explique comment cela fonctionne et pourquoi c’est important.
Quatre niveaux de fournisseurs en une seule plateforme
Niveau 1 : Fournisseurs cloud avec BYOK
Apportez vos propres clés API pour Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) et Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).
Vos clés sont chiffrées avec AES-256-GCM en utilisant des clés dérivées par compte via HKDF-SHA256. Elles sont déchiffrées en mémoire uniquement pendant l’exécution et jamais stockées en clair. Vous pouvez également utiliser les clés fournies par la plateforme sur le tier gratuit pour démarrer sans saisir d’identifiants.
Niveau 2 : Modèles open source certifiés
Nous avons testé quatre modèles open source de bout en bout sur vLLM et les avons certifiés pour une compatibilité complète avec JieGou — incluant l’appel d’outils, la sortie JSON structurée et l’exécution de Recipes :
| Modèle | Paramètres | Appel d’outils | Sortie structurée | Vision | Contexte |
|---|---|---|---|---|---|
| Llama 4 Maverick | 400B+ MoE | Oui | Oui | Oui | 1M tokens |
| DeepSeek V3.2 | 671B MoE | Oui | Oui | Non | 128K tokens |
| Qwen 3 235B | 235B MoE | Oui | Oui | Non | 128K tokens |
| Mistral 3 Large | 123B dense | Oui | Oui | Oui | 128K tokens |
« Certifié » signifie que nous avons exécuté des milliers d’exécutions de Recipes contre ces modèles, vérifié que l’appel d’outils et la sortie structurée fonctionnent correctement, et documenté le niveau de compatibilité. Vous pouvez les déployer en toute confiance.
Niveau 3 : Modèles communautaires
Tout modèle accessible via une API compatible OpenAI fonctionne avec JieGou. Nous ne l’avons pas testé, donc il reçoit un label de niveau « community » — mais l’intégration est identique. S’il parle le format API OpenAI, JieGou peut l’utiliser.
Niveau 4 : Modèles locaux auto-découverts
JieGou sonde les serveurs d’inférence locaux au démarrage :
http://ollama:11434(nom de service Docker Compose)http://localhost:11434(Ollama local)http://localhost:8000(vLLM local)- La variable d’environnement
OLLAMA_BASE_URL
Quand il trouve un serveur, il interroge la liste de modèles et rend ces modèles disponibles dans le sélecteur de modèle. Aucune configuration manuelle nécessaire. Le résultat de la découverte est mis en cache pendant 5 minutes pour éviter de surcharger votre serveur d’inférence.
Sélection de modèle par étape
C’est la fonctionnalité qui rend le support multi-fournisseur réellement utile, plutôt qu’une simple case à cocher sur un tableau comparatif.
Dans un workflow JieGou, chaque étape peut utiliser un modèle différent. Une configuration typique :
| Étape du workflow | Tâche | Modèle | Pourquoi |
|---|---|---|---|
| 1. Recherche | Analyse concurrentielle approfondie | Claude Opus 4.6 | Meilleure qualité de raisonnement |
| 2. Classifier | Catégoriser les résultats | GPT-5-nano | Rapide et peu coûteux pour la classification |
| 3. Extraire | Tirer des données structurées | Llama 4 Maverick | Haut volume au coût le plus bas |
| 4. Résumer | Rédiger un brief exécutif | Claude Sonnet 4.6 | Forte qualité rédactionnelle |
| 5. Traduire | Localiser en 5 langues | Qwen 3 235B | Meilleure performance multilingue |
La même flexibilité s’applique aux Recipes (chaque Recipe a son propre paramètre de modèle), aux conversations (choisissez un modèle par chat) et aux exécutions par lots (le modèle sélectionné s’applique à toutes les lignes).
Moteur de recommandation de modèle
Choisir le bon modèle pour chaque tâche semble puissant mais aussi complexe. Le moteur de recommandation le rend pratique.
Après plus de 10 exécutions d’une Recipe, le moteur a suffisamment de données pour noter chaque modèle que vous avez utilisé :
score = successRate * 0.5 + costEfficiency * 0.3 + speed * 0.2
Il examine les 60 derniers jours d’historique d’exécution et compare :
- Taux de succès — quel pourcentage d’exécutions s’est terminé sans erreur
- Efficience des coûts — coût par exécution réussie (plus bas est mieux)
- Vitesse — durée moyenne d’exécution (plus rapide est mieux)
Si votre modèle actuel a un taux de succès >= 90 % sur plus de 10 exécutions, le moteur confirme que c’est un bon choix. Sinon, il recommande l’alternative la mieux notée avec les métriques complètes pour que vous puissiez faire un changement éclairé.
Pour une comparaison rigoureuse, vous pouvez lancer un bakeoff — une évaluation en face à face avec scoring LLM-as-judge et intervalles de confiance à 95 %. Les bakeoffs peuvent comparer deux modèles, deux Recipes ou deux workflows.
Résilience enterprise
Exécuter des charges de travail de production à travers plusieurs fournisseurs nécessite plus que la gestion de clés API. JieGou inclut trois couches de résilience :
Circuit breakers
Chaque fournisseur a son propre circuit breaker. Si 5 appels échouent en 60 secondes, le circuit s’ouvre — les appels suivants échouent rapidement au lieu de timeout. Après 30 secondes, le circuit entre en état semi-ouvert et envoie une requête de sonde. Si elle réussit, le circuit se ferme et le trafic reprend.
Pour les fournisseurs openai-compatible, les circuit breakers sont scopés par compte (puisque chaque client peut avoir un endpoint différent). Les fournisseurs cloud partagent un circuit breaker global.
Critique : les circuit breakers sont fail-open — si Redis est down et qu’on ne peut pas vérifier l’état du circuit, on laisse passer l’appel. Cela signifie qu’une panne de surveillance ne bloque jamais vos workflows.
Limites de concurrence
Un sémaphore global limite les appels LLM concurrents par compte pour éviter les usages incontrôlés. La limite évolue avec votre plan :
| Niveau de plan | Part de capacité globale | Max par compte |
|---|---|---|
| Enterprise | 100 % (150 slots) | 10 concurrents |
| Pro | 83 % (125 slots) | 10 concurrents |
| Starter | 67 % (100 slots) | 10 concurrents |
Suivi des coûts
Chaque appel LLM enregistre l’utilisation de tokens et le coût estimé. Lorsque vous utilisez BYOK, le coût est suivi séparément — il apparaît dans votre tableau de bord analytics mais ne compte pas dans les limites d’utilisation de la plateforme, puisque vous payez votre fournisseur directement.
L’estimateur de coûts utilise les moyennes historiques de vos 20 dernières exécutions réussies pour projeter les coûts avant l’exécution. Vous pouvez voir la dépense attendue par Recipe, par étape de workflow et par exécution par lots.
Architecture zero-knowledge des clés
JieGou ne voit jamais vos clés API en clair au repos. Le pipeline de chiffrement :
- Clé racine chargée depuis Secret Manager ou variable d’environnement (hex 64 caractères)
- Clé par compte dérivée via HKDF-SHA256 :
HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32) - Chiffrement : AES-256-GCM avec IV aléatoire de 12 octets et tag d’authentification de 16 octets
- Stockage : Seuls le texte chiffré + IV + tag d’auth sont stockés dans Firestore
- Déchiffrement : Se produit en mémoire au moment de l’exécution, jamais persisté
La rotation des clés est supportée — le système peut migrer de l’ancien schéma de chiffrement global vers le chiffrement par enveloppe par compte sans interruption.
Si un appel API renvoie 401 ou 403, le système marque automatiquement la clé comme invalide et affiche une erreur claire. Vous pouvez revalider ou remplacer la clé depuis la page des paramètres.
Pour commencer
- Tier gratuit : Utilisez les clés fournies par la plateforme pour Anthropic, OpenAI et Google — aucun identifiant nécessaire
- BYOK : Allez dans Settings > API Keys, ajoutez vos clés de fournisseur, et elles sont chiffrées immédiatement
- Open source : Saisissez une URL de base personnalisée (par ex.,
http://your-vllm-server:8000/v1) et un nom de modèle - Auto-découverte : Si Ollama ou vLLM tourne localement, les modèles apparaissent automatiquement
L’accès multi-fournisseur aux modèles est disponible sur tous les plans. Les endpoints compatibles OpenAI et le moteur de recommandation de modèle sont disponibles sur Pro et supérieur. Le registre de modèles certifiés et l’auto-découverte sont des fonctionnalités Enterprise.
Explorer le support multi-fournisseur ou démarrer votre essai gratuit.