Agentes de chat híbridos — La cascada de resolución que realmente funciona en producción

Las reglas son rápidas pero frágiles. Los LLM son flexibles pero costosos. La cascada de resolución de 4 niveles de JieGou combina tablas de reglas, RAG, fallback de LLM y escalamiento humano en un solo agente de chat que es tanto confiable como inteligente.

JieGou Team · 4 de marzo de 2026 · 6 min de lectura

El problema con los constructores de chatbots actuales

La mayoría de las plataformas de chatbots lo fuerzan a uno de dos campos. Campo uno: motores de reglas basados en palabras clave. Define patrones como “horarios” o “política de reembolso” y los mapea a respuestas predefinidas. Son rápidos, determinísticos y baratos — pero se rompen en el momento en que un usuario formula algo diferente. “¿Cuáles son sus horarios?” coincide, pero “¿a qué hora cierran los fines de semana?” no.

Campo dos: enviar todo a un LLM. Cada mensaje va a GPT o Claude, y espera que el modelo acierte. A menudo lo hace — pero a 2-10 centavos por turno de conversación, con latencia variable y sin garantía de que el modelo no invente su política de devoluciones.

Ninguno de los dos enfoques está listo para producción por sí solo. El primero es demasiado rígido. El segundo es demasiado costoso e impredecible. Lo que realmente necesita es un sistema que use cada enfoque donde sobresale y caiga al siguiente nivel solo cuando sea necesario.

La cascada de resolución de 4 niveles

Los agentes de chat de JieGou resuelven mensajes a través de una cascada de 4 niveles, evaluados en orden:

Nivel 1 — Tabla de reglas con similitud de embeddings. Sus reglas se almacenan como una tabla de pares patrón-respuesta. Pero a diferencia de la coincidencia por palabras clave, cada patrón se convierte en un vector. Cuando llega un mensaje, se convierte en embedding y se compara contra todos los centroides de reglas usando similitud de coseno. Si la similitud excede un umbral configurable (predeterminado 0.82), la regla coincidente se activa instantáneamente. Cero costo de LLM. Latencia menor a 100ms. Salida determinística.

Nivel 2 — Recuperación de base de conocimiento (RAG). Si ninguna regla coincide, el mensaje se enruta a su base de conocimiento — documentos cargados, páginas de FAQ, manuales de producto. RAG recupera los fragmentos más relevantes y un LLM ligero sintetiza una respuesta fundamentada en su contenido. La similitud mínima configurable asegura que las recuperaciones de baja calidad se filtren.

Nivel 3 — Fallback de LLM. Si la confianza de RAG está por debajo del umbral, el contexto completo de la conversación más su prompt del sistema se envía a un modelo de lenguaje grande. El LLM maneja preguntas abiertas, solicitudes matizadas y cualquier cosa que sus reglas y base de conocimiento no cubran.

Nivel 4 — Escalamiento humano. Cuando la confianza del LLM es baja, o cuando el tema coincide con disparadores de escalamiento (ej., preguntas legales, consejo médico, disputas de facturación), la conversación se enruta a un agente humano con el contexto completo preservado.

La cascada no es solo una lista de prioridades — es un optimizador económico. La mayoría del tráfico de producción llega al Nivel 1 o Nivel 2. Las llamadas al LLM se reservan para la cola larga. Los agentes humanos manejan solo lo que genuinamente requiere un humano.

Importación CSV para equipos no técnicos

La tabla de reglas está diseñada para las personas que realmente conocen su negocio — líderes de soporte, gerentes de clínica, especialistas de producto. No escriben código. Escriben hojas de cálculo.

Cargue un CSV con dos columnas: patrón y respuesta. JieGou genera embeddings automáticos para cada patrón, calcula centroides para reglas con múltiples variantes de patrón, y la tabla de reglas está activa. ¿Necesita manejar “¿Cuáles son sus horarios?”, “¿Cuándo abren?”, y “¿Abren los sábados?” con la misma respuesta? Añada tres filas con la misma respuesta. El modelo de embeddings entiende paráfrasis — no se necesita regex.

Las reglas pueden actualizarse en cualquier momento. Recargue el CSV y los embeddings se recalculan. Sin redespliegue. Sin tiempo de inactividad.

Hilos de conversación con compactación

Las conversaciones reales son multi-turno. Un usuario pregunta sobre precios, luego continúa con “¿Y el plan empresarial?”, luego pregunta “¿Puedo obtener una demo?” Cada mensaje depende de lo anterior.

JieGou mantiene hilos de conversación completos con compactación automática. Los mensajes recientes se mantienen textualmente. Los mensajes más antiguos son resumidos por el LLM para preservar el contexto mientras se mantiene dentro de los límites de tokens. Esto significa que su agente puede manejar conversaciones de 50 turnos sin agotar ventanas de contexto ni acumular costos en prompts repetidos con historial completo.

El estado del hilo se persiste entre sesiones. Si un usuario regresa al día siguiente, el agente retoma donde lo dejó.

Multi-canal: mismo agente, cualquier plataforma

Construya su agente una vez. Desplíeguelo en LINE, Instagram, WhatsApp, Facebook Messenger y YouTube. La cascada de resolución, tabla de reglas, base de conocimiento e hilos de conversación funcionan idénticamente en cada canal.

Las funcionalidades específicas del canal — menús enriquecidos de LINE, respuestas a historias de Instagram, mensajes de plantilla de WhatsApp — se manejan en la capa del adaptador. La lógica de su agente permanece unificada. Actualice una regla y toma efecto en todas partes.

Esto es particularmente valioso en mercados APAC donde los negocios operan rutinariamente en LINE (Taiwán, Japón, Tailandia), WhatsApp (Sudeste asiático) e Instagram (en todas partes) simultáneamente.

Caso de uso real: clínica de salud en LINE

Una clínica médica en Taiwán desplegó un agente de chat JieGou en LINE con más de 200 reglas cubriendo programación de citas, preguntas de seguro, horarios de clínica e indicaciones — tanto en chino tradicional como en inglés.

El Nivel 1 maneja el 70% de los mensajes entrantes: “¿Cómo reservo una cita?”, “¿Aceptan el Seguro Nacional de Salud?”, “¿Dónde está la sucursal Xinyi?” Estos se resuelven en menos de 100ms con cero costo de LLM.

El Nivel 2 cubre consultas a la base de conocimiento sobre procedimientos específicos, instrucciones de preparación y cuidados post-visita — sintetizados de las guías médicas cargadas por la clínica.

El Nivel 3 maneja preguntas abiertas como “Tengo un sarpullido en el brazo que apareció después de una caminata el fin de semana pasado, ¿qué debo hacer?” El LLM proporciona orientación general mientras establece claramente que no es consejo médico.

El Nivel 4 escala temas sensibles — interacciones medicamentosas, triaje de síntomas, disputas de reclamos de seguro — al personal humano con el historial completo de conversación adjunto.

Gobernado por el stack completo

Los agentes de chat en JieGou no son bots independientes. Operan dentro del mismo marco de gobernanza que todo otro agente de JieGou:

RBAC controla quién puede crear, editar y desplegar agentes
Registro de auditoría registra cada mensaje, nivel de resolución usado y respuesta generada
Etiquetas de sensibilidad aseguran que PHI y PII en conversaciones médicas o financieras se manejen según la política
Detección de amenazas monitorea intentos de inyección de prompts dentro de mensajes de chat

Su agente de chat es inteligente, rápido y rentable. Y está gobernado desde el primer día.