Agents de chat hybrides — la cascade de résolution qui fonctionne vraiment en production

Les règles sont rapides mais fragiles. Les LLM sont flexibles mais coûteux. La cascade de résolution à 4 niveaux de JieGou combine tables de règles, RAG, fallback LLM et escalade humaine en un seul agent de chat à la fois fiable et intelligent.

JieGou Team · 4 mars 2026 · 5 min de lecture

Le problème des constructeurs de chatbots actuels

La plupart des plateformes de chatbots vous forcent dans l’un de deux camps. Camp un : les moteurs de règles par mots-clés. Vous définissez des patterns comme « horaires » ou « politique de remboursement » et les mappez à des réponses préenregistrées. Ils sont rapides, déterministes et peu coûteux — mais ils cassent dès qu’un utilisateur formule les choses différemment.

Camp deux : tout envoyer à un LLM. Chaque message va à GPT ou Claude, et vous espérez que le modèle a juste. C’est souvent le cas — mais à 2-10 centimes par tour de conversation, avec une latence variable et aucune garantie que le modèle n’hallucinera pas votre politique de retour.

Aucune approche n’est prête pour la production seule. La première est trop rigide. La seconde est trop coûteuse et imprévisible. Ce dont vous avez réellement besoin est un système qui utilise chaque approche là où elle excelle et ne passe au niveau suivant que quand c’est nécessaire.

La cascade de résolution à 4 niveaux

Les agents de chat de JieGou résolvent les messages à travers une cascade à 4 niveaux, évalués dans l’ordre :

Niveau 1 — Table de règles avec similarité d’embedding. Vos règles sont stockées comme une table de paires pattern-réponse. Mais contrairement au matching par mots-clés, chaque pattern est embedded comme vecteur. Quand un message arrive, il est embedded et comparé à tous les centroïdes de règles par similarité cosinus. Si la similarité dépasse un seuil configurable (par défaut 0,82), la règle correspondante se déclenche instantanément. Zéro coût LLM. Latence sub-100ms. Sortie déterministe.

Niveau 2 — Récupération de base de connaissances (RAG). Si aucune règle ne correspond, le message est routé vers votre base de connaissances — documents téléchargés, pages FAQ, manuels produits. Le RAG récupère les chunks les plus pertinents, et un LLM léger synthétise une réponse ancrée dans votre contenu.

Niveau 3 — Fallback LLM. Si la confiance RAG est sous le seuil, le contexte complet de la conversation plus votre prompt système est envoyé à un grand modèle de langage. Le LLM gère les questions ouvertes, les demandes nuancées et tout ce que vos règles et base de connaissances ne couvrent pas.

Niveau 4 — Escalade humaine. Quand la confiance du LLM est basse, ou quand le sujet correspond aux déclencheurs d’escalade (ex. questions juridiques, conseils médicaux, litiges de facturation), la conversation est routée vers un agent humain avec le contexte complet préservé.

La cascade n’est pas qu’une liste de priorités — c’est un optimiseur économique. La majeure partie du trafic de production atteint le niveau 1 ou 2. Les appels LLM sont réservés à la longue traîne. Les agents humains ne gèrent que ce qui nécessite véritablement un humain.

Import CSV pour les équipes non techniques

La table de règles est conçue pour les personnes qui connaissent réellement votre activité — responsables support, gestionnaires de clinique, spécialistes produit. Ils n’écrivent pas de code. Ils écrivent des tableurs.

Téléchargez un CSV avec deux colonnes : pattern et réponse. JieGou auto-embed chaque pattern, calcule les centroïdes pour les règles avec plusieurs variantes de pattern, et la table de règles est en ligne. Pas de regex nécessaire.

Les règles peuvent être mises à jour à tout moment. Re-téléchargez le CSV, et les embeddings sont recalculés. Pas de redéploiement. Pas de temps d’arrêt.

Threading de conversations avec compaction

Les vraies conversations sont multi-tours. JieGou maintient des fils de conversation complets avec compaction automatique. Les messages récents sont gardés textuellement. Les messages plus anciens sont résumés par le LLM pour préserver le contexte tout en restant dans les limites de tokens.

L’état du fil est persisté entre les sessions. Si un utilisateur revient le lendemain, l’agent reprend là où il s’était arrêté.

Multi-canal : même agent, n’importe quelle plateforme

Construisez votre agent une fois. Déployez-le sur LINE, Instagram, WhatsApp, Facebook Messenger et YouTube. La cascade de résolution, la table de règles, la base de connaissances et les fils de conversation fonctionnent de manière identique sur chaque canal.

Les fonctionnalités spécifiques aux canaux — menus riches LINE, réponses aux stories Instagram, messages templates WhatsApp — sont gérées au niveau de l’adaptateur. La logique de votre agent reste unifiée.

C’est particulièrement précieux sur les marchés APAC où les entreprises opèrent régulièrement sur LINE (Taiwan, Japon, Thaïlande), WhatsApp (Asie du Sud-Est) et Instagram (partout) simultanément.

Cas d’usage réel : clinique médicale sur LINE

Une clinique médicale à Taiwan a déployé un agent de chat JieGou sur LINE avec 200+ règles couvrant la prise de rendez-vous, les questions d’assurance, les horaires de la clinique et les itinéraires — en chinois traditionnel et en anglais.

Le niveau 1 gère 70 % des messages entrants avec un temps de réponse sub-100ms et zéro coût LLM.

Le niveau 2 couvre les requêtes de base de connaissances sur les procédures spécifiques et les instructions de préparation.

Le niveau 3 gère les questions ouvertes. Le LLM fournit des orientations générales tout en indiquant clairement qu’il ne s’agit pas d’un avis médical.

Le niveau 4 escalade les sujets sensibles — interactions médicamenteuses, triage de symptômes, litiges d’assurance — vers le personnel humain avec l’historique complet de la conversation.

Gouverné par la pile complète

Les agents de chat dans JieGou ne sont pas des bots autonomes. Ils opèrent dans le même cadre de gouvernance que chaque autre agent JieGou :

Le RBAC contrôle qui peut créer, modifier et déployer des agents
La journalisation d’audit enregistre chaque message, niveau de résolution utilisé et réponse générée
Les labels de sensibilité garantissent que les PHI et PII dans les conversations médicales ou financières sont traités selon la politique
La détection de menaces surveille les tentatives d’injection de prompt dans les messages de chat

Votre agent de chat est intelligent, rapide et rentable. Et il est gouverné dès le premier jour.