Skip to content
Produit

Bring Your Own Model : comment JieGou prend en charge chaque LLM, de Claude à Llama

Comment l'architecture multi-fournisseur de JieGou vous permet d'exécuter Claude, GPT-5, Gemini et des modèles open source comme Llama 4 depuis une seule plateforme — avec sélection par étape, découverte automatique et chiffrement zero-knowledge des clés.

JT
JieGou Team
· · 8 min de lecture

Chaque plateforme d’automatisation IA revendique le « support multi-modèle ». En pratique, cela signifie généralement que vous pouvez basculer entre GPT-4o et GPT-5 dans un menu déroulant des paramètres. Peut-être que Claude est aussi listé. Si vous voulez exécuter un modèle open source, vous êtes livré à vous-même.

JieGou adopte une approche différente. Nous avons construit une couche de modèle universelle qui traite chaque LLM — hébergé dans le cloud ou auto-hébergé, propriétaire ou open source — comme un citoyen de première classe. Cet article explique comment cela fonctionne et pourquoi c’est important.

Quatre niveaux de fournisseurs en une seule plateforme

Niveau 1 : Fournisseurs cloud avec BYOK

Apportez vos propres clés API pour Anthropic (Claude Sonnet 4.6, Haiku 4.5, Opus 4.6), OpenAI (GPT-5.2, GPT-5-mini, GPT-5-nano, o3, o4-mini) et Google (Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro/Flash).

Vos clés sont chiffrées avec AES-256-GCM en utilisant des clés dérivées par compte via HKDF-SHA256. Elles sont déchiffrées en mémoire uniquement pendant l’exécution et jamais stockées en clair. Vous pouvez également utiliser les clés fournies par la plateforme sur le tier gratuit pour démarrer sans saisir d’identifiants.

Niveau 2 : Modèles open source certifiés

Nous avons testé quatre modèles open source de bout en bout sur vLLM et les avons certifiés pour une compatibilité complète avec JieGou — incluant l’appel d’outils, la sortie JSON structurée et l’exécution de Recipes :

ModèleParamètresAppel d’outilsSortie structuréeVisionContexte
Llama 4 Maverick400B+ MoEOuiOuiOui1M tokens
DeepSeek V3.2671B MoEOuiOuiNon128K tokens
Qwen 3 235B235B MoEOuiOuiNon128K tokens
Mistral 3 Large123B denseOuiOuiOui128K tokens

« Certifié » signifie que nous avons exécuté des milliers d’exécutions de Recipes contre ces modèles, vérifié que l’appel d’outils et la sortie structurée fonctionnent correctement, et documenté le niveau de compatibilité. Vous pouvez les déployer en toute confiance.

Niveau 3 : Modèles communautaires

Tout modèle accessible via une API compatible OpenAI fonctionne avec JieGou. Nous ne l’avons pas testé, donc il reçoit un label de niveau « community » — mais l’intégration est identique. S’il parle le format API OpenAI, JieGou peut l’utiliser.

Niveau 4 : Modèles locaux auto-découverts

JieGou sonde les serveurs d’inférence locaux au démarrage :

  1. http://ollama:11434 (nom de service Docker Compose)
  2. http://localhost:11434 (Ollama local)
  3. http://localhost:8000 (vLLM local)
  4. La variable d’environnement OLLAMA_BASE_URL

Quand il trouve un serveur, il interroge la liste de modèles et rend ces modèles disponibles dans le sélecteur de modèle. Aucune configuration manuelle nécessaire. Le résultat de la découverte est mis en cache pendant 5 minutes pour éviter de surcharger votre serveur d’inférence.

Sélection de modèle par étape

C’est la fonctionnalité qui rend le support multi-fournisseur réellement utile, plutôt qu’une simple case à cocher sur un tableau comparatif.

Dans un workflow JieGou, chaque étape peut utiliser un modèle différent. Une configuration typique :

Étape du workflowTâcheModèlePourquoi
1. RechercheAnalyse concurrentielle approfondieClaude Opus 4.6Meilleure qualité de raisonnement
2. ClassifierCatégoriser les résultatsGPT-5-nanoRapide et peu coûteux pour la classification
3. ExtraireTirer des données structuréesLlama 4 MaverickHaut volume au coût le plus bas
4. RésumerRédiger un brief exécutifClaude Sonnet 4.6Forte qualité rédactionnelle
5. TraduireLocaliser en 5 languesQwen 3 235BMeilleure performance multilingue

La même flexibilité s’applique aux Recipes (chaque Recipe a son propre paramètre de modèle), aux conversations (choisissez un modèle par chat) et aux exécutions par lots (le modèle sélectionné s’applique à toutes les lignes).

Moteur de recommandation de modèle

Choisir le bon modèle pour chaque tâche semble puissant mais aussi complexe. Le moteur de recommandation le rend pratique.

Après plus de 10 exécutions d’une Recipe, le moteur a suffisamment de données pour noter chaque modèle que vous avez utilisé :

score = successRate * 0.5 + costEfficiency * 0.3 + speed * 0.2

Il examine les 60 derniers jours d’historique d’exécution et compare :

  • Taux de succès — quel pourcentage d’exécutions s’est terminé sans erreur
  • Efficience des coûts — coût par exécution réussie (plus bas est mieux)
  • Vitesse — durée moyenne d’exécution (plus rapide est mieux)

Si votre modèle actuel a un taux de succès >= 90 % sur plus de 10 exécutions, le moteur confirme que c’est un bon choix. Sinon, il recommande l’alternative la mieux notée avec les métriques complètes pour que vous puissiez faire un changement éclairé.

Pour une comparaison rigoureuse, vous pouvez lancer un bakeoff — une évaluation en face à face avec scoring LLM-as-judge et intervalles de confiance à 95 %. Les bakeoffs peuvent comparer deux modèles, deux Recipes ou deux workflows.

Résilience enterprise

Exécuter des charges de travail de production à travers plusieurs fournisseurs nécessite plus que la gestion de clés API. JieGou inclut trois couches de résilience :

Circuit breakers

Chaque fournisseur a son propre circuit breaker. Si 5 appels échouent en 60 secondes, le circuit s’ouvre — les appels suivants échouent rapidement au lieu de timeout. Après 30 secondes, le circuit entre en état semi-ouvert et envoie une requête de sonde. Si elle réussit, le circuit se ferme et le trafic reprend.

Pour les fournisseurs openai-compatible, les circuit breakers sont scopés par compte (puisque chaque client peut avoir un endpoint différent). Les fournisseurs cloud partagent un circuit breaker global.

Critique : les circuit breakers sont fail-open — si Redis est down et qu’on ne peut pas vérifier l’état du circuit, on laisse passer l’appel. Cela signifie qu’une panne de surveillance ne bloque jamais vos workflows.

Limites de concurrence

Un sémaphore global limite les appels LLM concurrents par compte pour éviter les usages incontrôlés. La limite évolue avec votre plan :

Niveau de planPart de capacité globaleMax par compte
Enterprise100 % (150 slots)10 concurrents
Pro83 % (125 slots)10 concurrents
Starter67 % (100 slots)10 concurrents

Suivi des coûts

Chaque appel LLM enregistre l’utilisation de tokens et le coût estimé. Lorsque vous utilisez BYOK, le coût est suivi séparément — il apparaît dans votre tableau de bord analytics mais ne compte pas dans les limites d’utilisation de la plateforme, puisque vous payez votre fournisseur directement.

L’estimateur de coûts utilise les moyennes historiques de vos 20 dernières exécutions réussies pour projeter les coûts avant l’exécution. Vous pouvez voir la dépense attendue par Recipe, par étape de workflow et par exécution par lots.

Architecture zero-knowledge des clés

JieGou ne voit jamais vos clés API en clair au repos. Le pipeline de chiffrement :

  1. Clé racine chargée depuis Secret Manager ou variable d’environnement (hex 64 caractères)
  2. Clé par compte dérivée via HKDF-SHA256 : HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
  3. Chiffrement : AES-256-GCM avec IV aléatoire de 12 octets et tag d’authentification de 16 octets
  4. Stockage : Seuls le texte chiffré + IV + tag d’auth sont stockés dans Firestore
  5. Déchiffrement : Se produit en mémoire au moment de l’exécution, jamais persisté

La rotation des clés est supportée — le système peut migrer de l’ancien schéma de chiffrement global vers le chiffrement par enveloppe par compte sans interruption.

Si un appel API renvoie 401 ou 403, le système marque automatiquement la clé comme invalide et affiche une erreur claire. Vous pouvez revalider ou remplacer la clé depuis la page des paramètres.

Pour commencer

  1. Tier gratuit : Utilisez les clés fournies par la plateforme pour Anthropic, OpenAI et Google — aucun identifiant nécessaire
  2. BYOK : Allez dans Settings > API Keys, ajoutez vos clés de fournisseur, et elles sont chiffrées immédiatement
  3. Open source : Saisissez une URL de base personnalisée (par ex., http://your-vllm-server:8000/v1) et un nom de modèle
  4. Auto-découverte : Si Ollama ou vLLM tourne localement, les modèles apparaissent automatiquement

L’accès multi-fournisseur aux modèles est disponible sur tous les plans. Les endpoints compatibles OpenAI et le moteur de recommandation de modèle sont disponibles sur Pro et supérieur. Le registre de modèles certifiés et l’auto-découverte sont des fonctionnalités Enterprise.

Explorer le support multi-fournisseur ou démarrer votre essai gratuit.

byom byok multi-provider open-source llama deepseek vllm ollama model-selection
Partager cet article

Vous avez aime cet article ?

Recevez des astuces workflows, des mises a jour produit et des guides d'automatisation dans votre boite de reception.

No spam. Unsubscribe anytime.