Bring Your Own Model : comment JieGou prend en charge chaque LLM, de Claude à Llama

Comment l'architecture multi-fournisseur de JieGou vous permet d'exécuter Claude, GPT-5, Gemini et des modèles open source comme Llama 4 depuis une seule plateforme — avec sélection par étape, découverte automatique et chiffrement zero-knowledge des clés.

JieGou Team · 26 février 2026 · 8 min de lecture

Chaque plateforme d’automatisation IA revendique le « support multi-modèle ». En pratique, cela signifie généralement que vous pouvez basculer entre GPT-4o et GPT-5 dans un menu déroulant des paramètres. Peut-être que Claude est aussi listé. Si vous voulez exécuter un modèle open source, vous êtes livré à vous-même.

JieGou adopte une approche différente. Nous avons construit une couche de modèle universelle qui traite chaque LLM — hébergé dans le cloud ou auto-hébergé, propriétaire ou open source — comme un citoyen de première classe. Cet article explique comment cela fonctionne et pourquoi c’est important.

Quatre niveaux de fournisseurs en une seule plateforme

Niveau 1 : Fournisseurs cloud avec BYOK

Apportez vos propres clés API pour Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) et Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).

Vos clés sont chiffrées avec AES-256-GCM en utilisant des clés dérivées par compte via HKDF-SHA256. Elles sont déchiffrées en mémoire uniquement pendant l’exécution et jamais stockées en clair. Vous pouvez également utiliser les clés fournies par la plateforme sur le tier gratuit pour démarrer sans saisir d’identifiants.

Niveau 2 : Modèles open source certifiés

Nous avons testé quatre modèles open source de bout en bout sur vLLM et les avons certifiés pour une compatibilité complète avec JieGou — incluant l’appel d’outils, la sortie JSON structurée et l’exécution de Recipes :

Modèle	Paramètres	Appel d’outils	Sortie structurée	Vision	Contexte
Llama 4 Maverick	400B+ MoE	Oui	Oui	Oui	1M tokens
DeepSeek V3.2	671B MoE	Oui	Oui	Non	128K tokens
Qwen 3 235B	235B MoE	Oui	Oui	Non	128K tokens
Mistral 3 Large	123B dense	Oui	Oui	Oui	128K tokens

« Certifié » signifie que nous avons exécuté des milliers d’exécutions de Recipes contre ces modèles, vérifié que l’appel d’outils et la sortie structurée fonctionnent correctement, et documenté le niveau de compatibilité. Vous pouvez les déployer en toute confiance.

Niveau 3 : Modèles communautaires

Tout modèle accessible via une API compatible OpenAI fonctionne avec JieGou. Nous ne l’avons pas testé, donc il reçoit un label de niveau « community » — mais l’intégration est identique. S’il parle le format API OpenAI, JieGou peut l’utiliser.

Niveau 4 : Modèles locaux auto-découverts

JieGou sonde les serveurs d’inférence locaux au démarrage :

http://ollama:11434 (nom de service Docker Compose)
http://localhost:11434 (Ollama local)
http://localhost:8000 (vLLM local)
La variable d’environnement OLLAMA_BASE_URL

Quand il trouve un serveur, il interroge la liste de modèles et rend ces modèles disponibles dans le sélecteur de modèle. Aucune configuration manuelle nécessaire. Le résultat de la découverte est mis en cache pendant 5 minutes pour éviter de surcharger votre serveur d’inférence.

Sélection de modèle par étape

C’est la fonctionnalité qui rend le support multi-fournisseur réellement utile, plutôt qu’une simple case à cocher sur un tableau comparatif.

Dans un workflow JieGou, chaque étape peut utiliser un modèle différent. Une configuration typique :

Étape du workflow	Tâche	Modèle	Pourquoi
1. Recherche	Analyse concurrentielle approfondie	Claude Opus 4.6	Meilleure qualité de raisonnement
2. Classifier	Catégoriser les résultats	GPT-5-nano	Rapide et peu coûteux pour la classification
3. Extraire	Tirer des données structurées	Llama 4 Maverick	Haut volume au coût le plus bas
4. Résumer	Rédiger un brief exécutif	Claude Sonnet 4.6	Forte qualité rédactionnelle
5. Traduire	Localiser en 5 langues	Qwen 3 235B	Meilleure performance multilingue

La même flexibilité s’applique aux Recipes (chaque Recipe a son propre paramètre de modèle), aux conversations (choisissez un modèle par chat) et aux exécutions par lots (le modèle sélectionné s’applique à toutes les lignes).

Moteur de recommandation de modèle

Choisir le bon modèle pour chaque tâche semble puissant mais aussi complexe. Le moteur de recommandation le rend pratique.

Après plus de 10 exécutions d’une Recipe, le moteur a suffisamment de données pour noter chaque modèle que vous avez utilisé :

score = successRate * 0.5 + costEfficiency * 0.3 + speed * 0.2

Il examine les 60 derniers jours d’historique d’exécution et compare :

Taux de succès — quel pourcentage d’exécutions s’est terminé sans erreur
Efficience des coûts — coût par exécution réussie (plus bas est mieux)
Vitesse — durée moyenne d’exécution (plus rapide est mieux)

Si votre modèle actuel a un taux de succès >= 90 % sur plus de 10 exécutions, le moteur confirme que c’est un bon choix. Sinon, il recommande l’alternative la mieux notée avec les métriques complètes pour que vous puissiez faire un changement éclairé.

Pour une comparaison rigoureuse, vous pouvez lancer un bakeoff — une évaluation en face à face avec scoring LLM-as-judge et intervalles de confiance à 95 %. Les bakeoffs peuvent comparer deux modèles, deux Recipes ou deux workflows.

Résilience enterprise

Exécuter des charges de travail de production à travers plusieurs fournisseurs nécessite plus que la gestion de clés API. JieGou inclut trois couches de résilience :

Circuit breakers

Chaque fournisseur a son propre circuit breaker. Si 5 appels échouent en 60 secondes, le circuit s’ouvre — les appels suivants échouent rapidement au lieu de timeout. Après 30 secondes, le circuit entre en état semi-ouvert et envoie une requête de sonde. Si elle réussit, le circuit se ferme et le trafic reprend.

Pour les fournisseurs openai-compatible, les circuit breakers sont scopés par compte (puisque chaque client peut avoir un endpoint différent). Les fournisseurs cloud partagent un circuit breaker global.

Critique : les circuit breakers sont fail-open — si Redis est down et qu’on ne peut pas vérifier l’état du circuit, on laisse passer l’appel. Cela signifie qu’une panne de surveillance ne bloque jamais vos workflows.

Limites de concurrence

Un sémaphore global limite les appels LLM concurrents par compte pour éviter les usages incontrôlés. La limite évolue avec votre plan :

Niveau de plan	Part de capacité globale	Max par compte
Enterprise	100 % (150 slots)	10 concurrents
Pro	83 % (125 slots)	10 concurrents
Starter	67 % (100 slots)	10 concurrents

Suivi des coûts

Chaque appel LLM enregistre l’utilisation de tokens et le coût estimé. Lorsque vous utilisez BYOK, le coût est suivi séparément — il apparaît dans votre tableau de bord analytics mais ne compte pas dans les limites d’utilisation de la plateforme, puisque vous payez votre fournisseur directement.

L’estimateur de coûts utilise les moyennes historiques de vos 20 dernières exécutions réussies pour projeter les coûts avant l’exécution. Vous pouvez voir la dépense attendue par Recipe, par étape de workflow et par exécution par lots.

Architecture zero-knowledge des clés

JieGou ne voit jamais vos clés API en clair au repos. Le pipeline de chiffrement :

Clé racine chargée depuis Secret Manager ou variable d’environnement (hex 64 caractères)
Clé par compte dérivée via HKDF-SHA256 : HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
Chiffrement : AES-256-GCM avec IV aléatoire de 12 octets et tag d’authentification de 16 octets
Stockage : Seuls le texte chiffré + IV + tag d’auth sont stockés dans Firestore
Déchiffrement : Se produit en mémoire au moment de l’exécution, jamais persisté

La rotation des clés est supportée — le système peut migrer de l’ancien schéma de chiffrement global vers le chiffrement par enveloppe par compte sans interruption.

Si un appel API renvoie 401 ou 403, le système marque automatiquement la clé comme invalide et affiche une erreur claire. Vous pouvez revalider ou remplacer la clé depuis la page des paramètres.

Pour commencer

Tier gratuit : Utilisez les clés fournies par la plateforme pour Anthropic, OpenAI et Google — aucun identifiant nécessaire
BYOK : Allez dans Settings > API Keys, ajoutez vos clés de fournisseur, et elles sont chiffrées immédiatement
Open source : Saisissez une URL de base personnalisée (par ex., http://your-vllm-server:8000/v1) et un nom de modèle
Auto-découverte : Si Ollama ou vLLM tourne localement, les modèles apparaissent automatiquement

L’accès multi-fournisseur aux modèles est disponible sur tous les plans. Les endpoints compatibles OpenAI et le moteur de recommandation de modèle sont disponibles sur Pro et supérieur. Le registre de modèles certifiés et l’auto-découverte sont des fonctionnalités Enterprise.

Explorer le support multi-fournisseur ou démarrer votre essai gratuit.