99.18% de Cobertura de Pruebas, 24,000+ Tests: La Plataforma de Automatización de IA Más Probada

Las plataformas de automatización de IA toman decisiones que afectan procesos empresariales reales. Cuando una recipe genera un correo electrónico para un cliente, o un workflow aprueba una orden de compra, o un agente delega tareas entre departamentos — el resultado importa. Si la plataforma tiene errores, el negocio tiene errores.

Por eso JieGou ejecuta 24,000+ pruebas automatizadas con 99.18% de cobertura de código. Cada noche. En los 4 proveedores de LLM. Con auditorías de accesibilidad, pruebas de regresión visual y verificación de cumplimiento de RBAC incluidos.

Ninguna otra plataforma de automatización de IA publica estos números. La mayoría no los tiene.

Por qué las pruebas importan más para plataformas de IA

Las pruebas de SaaS tradicional son directas: dado el input X, se espera el output Y. Las plataformas de automatización de IA agregan tres capas de complejidad:

Outputs no determinísticos — Los LLMs no devuelven la misma respuesta dos veces. Las pruebas deben validar estructura, restricciones y calidad en lugar de cadenas exactas.
Variabilidad entre múltiples proveedores — JieGou soporta 4 proveedores de LLM (Anthropic, OpenAI, Google y cualquier endpoint compatible con OpenAI). Cada uno tiene diferentes capacidades, modos de error y formatos de respuesta.
Complejidad de orquestación — Los workflows encadenan múltiples pasos con lógica condicional, ejecución paralela, puertas de aprobación y bucles de convergencia. Un error en el paso 3 puede corromper la salida del paso 7 a través del estado compartido.

Estos desafíos son exactamente la razón por la que la disciplina de pruebas importa. Sin ella, está enviando errores que no puede reproducir porque solo aparecen bajo patrones de respuesta específicos del LLM.

Qué cubren las 24,000+ pruebas

Pruebas unitarias (Vitest)

La mayor parte de nuestro conjunto de pruebas — lógica del lado del servidor, transformaciones de datos, reglas de validación y lógica de negocio:

Capa de LLM: Enrutamiento de proveedores, resolución de claves BYOK, máquinas de estado de circuit breaker, limitación de concurrencia, rastreo de uso de tokens
Motor de workflow: Ejecución de pasos (recipe, condición, bucle, paralelo, aprobación, LLM, evaluación, router, agregador), ejecución DAG, bucles de convergencia, checkpoint/reanudación
Seguridad: Cumplimiento de RBAC (20 permisos en 5 roles), protección de autenticación, cifrado/descifrado de claves API, gestión de sesiones
Evidencia SOC 2: Generación de revisión de accesos, inventario de cifrado, registro de proveedores, runbook de respuesta a incidentes, resúmenes de registro de auditoría
Capa de datos: CRUD de Firestore, caché de Redis, limitación de velocidad, cola de mensajes muertos

Pruebas E2E (Playwright)

Pruebas de automatización completas del navegador que ejercitan la aplicación real:

Recorridos de usuario: Onboarding de administrador, revisión de líder de departamento, creación de workflow por desarrollador
Cobertura de rutas: Cada ruta en la aplicación (bundles, entidades, grupos, integraciones, bases de conocimiento, grabaciones, precios, redirecciones)
Cumplimiento de RBAC: Pruebas negativas que verifican que los usuarios no autorizados reciben 403
Consistencia de datos: Verificación de respuesta API frente a renderizado de UI, manejo de operaciones concurrentes

Auditorías de accesibilidad (@axe-core/playwright)

Escaneo de cumplimiento WCAG 2.1 AA en páginas clave:

Ratios de contraste de color
Corrección de atributos ARIA
Navegación por teclado
Compatibilidad con lectores de pantalla

Pruebas de regresión visual

Comparación de capturas de pantalla de Playwright para detectar cambios no intencionales en la UI:

Renderizado de componentes en diferentes tamaños de viewport
Consistencia de tema (claro/oscuro)
Estabilidad del diseño después de actualizaciones de dependencias

Pruebas con mocks de LLM

Dobles de prueba determinísticos para los 4 proveedores de LLM mediante llm-mock.ts (818 líneas):

El formato de respuesta de cada proveedor está simulado con precisión
Llamadas a herramientas, salida estructurada y streaming están cubiertos
Las pruebas verifican el comportamiento bajo condiciones de timeout, límite de velocidad y error
Mock de endpoint compatible con OpenAI personalizado para pruebas de LLM auto-hospedado

Líneas base de rendimiento

Métricas de carga de página rastreadas como aserciones de prueba:

Tiempo hasta interactivo
Largest Contentful Paint
Umbrales de tamaño de bundle

El contraste con n8n

Mientras nosotros ejecutamos 24,000+ pruebas cada noche, la plataforma de automatización de código abierto n8n ha acumulado 8 CVEs críticos — varios que requieren solo acceso de editor de workflow (no administrador) para ejecución remota de código. Censys identificó 26,512 instancias expuestas de n8n en la internet pública.

Auto-hospedado no significa auto-seguro. La disciplina de pruebas sí.

Cómo las pruebas alimentan SOC 2

Nuestro conjunto de pruebas no se trata solo de encontrar errores. Es parte de nuestra recolección de evidencia SOC 2:

CC5.2 (Actividades de Control): El conjunto de pruebas en sí es evidencia de controles de calidad
CC6.2 (Controles de Acceso): Las pruebas de cumplimiento de RBAC demuestran que los controles de acceso funcionan
CC7.1 (Operaciones del Sistema): El CI nocturno demuestra monitoreo continuo
CC8.1 (Gestión de Cambios): Cada PR ejecuta el conjunto completo de pruebas antes de la fusión

El agregador de evidencia SOC 2 (/api/soc2-evidence) referencia la cobertura de pruebas como una métrica clave. Cuando nuestro auditor pregunta “¿cómo aseguran que los cambios no introduzcan regresiones de seguridad?”, tenemos una respuesta concreta: 24,000+ pruebas, 99.18% de cobertura, en cada commit.

El pipeline de CI nocturno

Cada noche, nuestro pipeline de CI:

Ejecuta el conjunto completo de pruebas unitarias Vitest (~9,500 pruebas)
Ejecuta pruebas E2E de Playwright (~500 pruebas) contra un despliegue nuevo
Ejecuta auditorías de accesibilidad en más de 20 páginas clave
Ejecuta comparaciones de regresión visual
Reporta la cobertura al equipo

Si alguna prueba falla, el equipo es notificado antes del siguiente día hábil. Si la cobertura cae por debajo del 98%, la compilación falla.

Pruébelo usted mismo

JieGou está disponible para evaluación gratuita. Cada función mencionada aquí — el soporte de 4 proveedores de LLM, el motor de workflow, la recolección de evidencia SOC 2 — está disponible en los planes Enterprise.

Inicie una prueba gratuita o contacte a nuestro equipo para discutir requisitos de cumplimiento.