24.000+ Tests: Cómo construimos la plataforma de automatización de IA más probada

El camino: 11.666 a 17.500 a 24.000+

Hace tres meses, publicamos nuestro primer post de transparencia sobre testing. JieGou tenía 11.666 tests automatizados con un 99,18 % de cobertura de código. Ya era más de lo que cualquier otra plataforma de automatización de IA había publicado — porque ninguna otra plataforma publica métricas de testing en absoluto.

Desde entonces, el producto ha crecido significativamente. Nuevas funcionalidades lanzadas: chat agents con 12 integraciones de canales de mensajería, graduated autonomy con 4 niveles de confianza, un paso de workflow de coding agent, conversation compaction, session branching, importaciones de base de conocimiento de sitios web, custom tool lifecycle hooks y un SDK para ejecución headless. Cada funcionalidad trajo nueva superficie de testing.

Los números cuentan la historia:

Febrero 2026: 11.666 tests
Finales de febrero 2026: 17.500 tests
Marzo 2026: 24.000+ tests

Eso es un aumento de 2x en la cobertura de tests en menos de tres meses — mientras se lanzaban funcionalidades importantes cada semana.

Qué probamos

Unit Tests (Vitest)

La mayor parte de la suite. Lógica del lado del servidor, transformaciones de datos, reglas de validación, lógica de negocio y funciones utilitarias. Cada función en src/lib/server/ tiene cobertura de tests correspondiente. Áreas clave:

Abstracción de proveedores LLM: Testing basado en mocks para Anthropic, OpenAI, Google y endpoints compatibles con OpenAI. Tool calling, structured output, streaming, condiciones de error, circuit breakers y rate limiting.
Workflow engine: Ejecución de pasos, resolución de DAG, planificación de waves paralelas, convergence loops, máquinas de estado de approval gates, checkpointing de crash-recovery.
Auth y RBAC: Modelo de permisos de 5 roles (Owner > Admin > Manager > Editor > Viewer) con 20 permisos granulares. Cada límite de permisos tiene tests positivos y negativos.
Chat agents: Enrutamiento de mensajes a través de 12 canales (LINE, Instagram, Facebook Messenger, WhatsApp, Telegram, Slack, Discord, WeChat, Viber, SMS, email, web chat). Coincidencia de FAQ, scoring de confianza, lógica de respuesta automática, reglas de escalación humana.
Cifrado: AES-256-GCM envelope encryption para claves API con derivación de claves HKDF por cuenta. Rotación de claves sin tiempo de inactividad.

Tests de integración

Testing de rutas API con ciclos de request/response realistas. Cada endpoint +server.ts tiene tests que cubren:

Autenticación y autorización
Validación de entrada y respuestas de error
Happy path con salidas esperadas
Casos límite: entradas vacías, payloads sobredimensionados, solicitudes concurrentes
Comportamiento de rate limiting y circuit breaker

Tests E2E (Playwright)

Automatización completa del navegador ejercitando recorridos reales de usuario:

Flujos de onboarding de administrador
Procesos de revisión de líderes de departamento
Creación de workflows por desarrolladores
Verificación de aplicación de RBAC (acceso no autorizado bloqueado)
Consistencia de datos entre respuestas API y renderizado de UI
Auditorías de accesibilidad usando @axe-core para conformidad WCAG 2.1 AA

LLM Mock Testing

Nuestro sistema de mocks LLM proporciona test doubles determinísticos para las 4 familias de proveedores. Esto es crítico porque las salidas de IA son no determinísticas — no se puede escribir expect(response).toBe("exact string") para llamadas LLM. En su lugar, probamos:

Estructura de respuesta y conformidad de esquema
Secuencias de tool calling y validación de parámetros
Ensamblaje de chunks de streaming
Manejo de errores: timeouts, rate limits, respuestas malformadas
Peculiaridades específicas de cada proveedor (cada uno tiene diferente formateo JSON, esquemas de tool call, etc.)

Por qué importa para las empresas

Evidencia SOC 2

Nuestra suite de tests es parte de la recolección de evidencia SOC 2. La cobertura de tests se mapea directamente a los Trust Services Criteria:

CC5.2 (Control Activities): Suite de tests como evidencia de control de calidad
CC6.2 (Access Controls): Tests de aplicación de RBAC como prueba de control de acceso
CC7.1 (System Operations): CI nocturno como monitoreo continuo
CC8.1 (Change Management): PR test gate como control de gestión de cambios

Cuando los auditores preguntan “¿cómo aseguran que los cambios no introduzcan regresiones?”, tenemos una respuesta concreta: 24.000+ tests, en cada commit, con un coverage gate que falla los builds por debajo del 99 %.

Señal competitiva

Ninguna otra plataforma de automatización de IA publica métricas de testing. Ni Zapier (escala enterprise pero prácticas de calidad cerradas), ni n8n (8 CVEs a principios de 2026), ni Make, ni ninguna de las nuevas plataformas de agentes de IA. Publicar nuestro conteo de tests no es marketing — es responsabilidad.

Cuando decimos que JieGou está listo para empresas, la suite de tests es la evidencia. Cuando decimos que una funcionalidad funciona, hay cientos de tests que lo demuestran.

Cómo escala la calidad

La clave es que el conteo de tests debe crecer más rápido que el conteo de funcionalidades. Cada nueva funcionalidad añade tests, pero también añade tests para las interacciones con funcionalidades existentes. Un nuevo canal de mensajería no solo necesita tests específicos del canal — necesita tests de cómo ese canal interactúa con el FAQ matching, confidence scoring, approval gates, audit logging y RBAC.

Este efecto multiplicativo es la razón por la que el conteo de tests se duplicó mientras el conteo de funcionalidades creció linealmente. También es la razón por la que las plataformas que omiten el testing temprano encuentran progresivamente más difícil añadir funcionalidades de forma fiable — la deuda técnica se acumula.

Nuestro enfoque:

Test-first para lógica de servidor. Cada nueva función en src/lib/server/ obtiene tests antes o junto con la implementación.
Uso intensivo de mocks para interacciones LLM. Mocks determinísticos para todos los proveedores, para que los tests sean rápidos y reproducibles.
E2E para rutas críticas. Automatización del navegador para los recorridos más importantes: onboarding, creación de workflows, ejecución y flujos de aprobación.
Suite de regresión nocturna. La suite completa se ejecuta cada noche en todas las configuraciones, detectando desviaciones que el CI incremental podría pasar por alto.

Qué viene después

No vamos a desacelerar. La roadmap incluye más canales de mensajería, integraciones MCP más profundas y funcionalidades de governance ampliadas. Cada una traerá más tests. Nuestro objetivo es mantener la cobertura por encima del 99 % mientras seguimos lanzando semanalmente.

El conteo de tests es un indicador rezagado de la calidad del producto. El indicador adelantado es que las empresas pueden desplegar automatizaciones de JieGou en producción con confianza — porque cada template, cada paso de workflow y cada control de governance ha sido probado antes de llegar a su equipo.

24.000+ tests y sumando.