Las plataformas de automatización de IA toman decisiones que afectan procesos empresariales reales. Cuando una recipe genera un correo electrónico para un cliente, o un workflow aprueba una orden de compra, o un agente delega tareas entre departamentos — el resultado importa. Si la plataforma tiene errores, el negocio tiene errores.
Por eso JieGou ejecuta 24,000+ pruebas automatizadas con 99.18% de cobertura de código. Cada noche. En los 4 proveedores de LLM. Con auditorías de accesibilidad, pruebas de regresión visual y verificación de cumplimiento de RBAC incluidos.
Ninguna otra plataforma de automatización de IA publica estos números. La mayoría no los tiene.
Por qué las pruebas importan más para plataformas de IA
Las pruebas de SaaS tradicional son directas: dado el input X, se espera el output Y. Las plataformas de automatización de IA agregan tres capas de complejidad:
- Outputs no determinísticos — Los LLMs no devuelven la misma respuesta dos veces. Las pruebas deben validar estructura, restricciones y calidad en lugar de cadenas exactas.
- Variabilidad entre múltiples proveedores — JieGou soporta 4 proveedores de LLM (Anthropic, OpenAI, Google y cualquier endpoint compatible con OpenAI). Cada uno tiene diferentes capacidades, modos de error y formatos de respuesta.
- Complejidad de orquestación — Los workflows encadenan múltiples pasos con lógica condicional, ejecución paralela, puertas de aprobación y bucles de convergencia. Un error en el paso 3 puede corromper la salida del paso 7 a través del estado compartido.
Estos desafíos son exactamente la razón por la que la disciplina de pruebas importa. Sin ella, está enviando errores que no puede reproducir porque solo aparecen bajo patrones de respuesta específicos del LLM.
Qué cubren las 24,000+ pruebas
Pruebas unitarias (Vitest)
La mayor parte de nuestro conjunto de pruebas — lógica del lado del servidor, transformaciones de datos, reglas de validación y lógica de negocio:
- Capa de LLM: Enrutamiento de proveedores, resolución de claves BYOK, máquinas de estado de circuit breaker, limitación de concurrencia, rastreo de uso de tokens
- Motor de workflow: Ejecución de pasos (recipe, condición, bucle, paralelo, aprobación, LLM, evaluación, router, agregador), ejecución DAG, bucles de convergencia, checkpoint/reanudación
- Seguridad: Cumplimiento de RBAC (20 permisos en 5 roles), protección de autenticación, cifrado/descifrado de claves API, gestión de sesiones
- Evidencia SOC 2: Generación de revisión de accesos, inventario de cifrado, registro de proveedores, runbook de respuesta a incidentes, resúmenes de registro de auditoría
- Capa de datos: CRUD de Firestore, caché de Redis, limitación de velocidad, cola de mensajes muertos
Pruebas E2E (Playwright)
Pruebas de automatización completas del navegador que ejercitan la aplicación real:
- Recorridos de usuario: Onboarding de administrador, revisión de líder de departamento, creación de workflow por desarrollador
- Cobertura de rutas: Cada ruta en la aplicación (bundles, entidades, grupos, integraciones, bases de conocimiento, grabaciones, precios, redirecciones)
- Cumplimiento de RBAC: Pruebas negativas que verifican que los usuarios no autorizados reciben 403
- Consistencia de datos: Verificación de respuesta API frente a renderizado de UI, manejo de operaciones concurrentes
Auditorías de accesibilidad (@axe-core/playwright)
Escaneo de cumplimiento WCAG 2.1 AA en páginas clave:
- Ratios de contraste de color
- Corrección de atributos ARIA
- Navegación por teclado
- Compatibilidad con lectores de pantalla
Pruebas de regresión visual
Comparación de capturas de pantalla de Playwright para detectar cambios no intencionales en la UI:
- Renderizado de componentes en diferentes tamaños de viewport
- Consistencia de tema (claro/oscuro)
- Estabilidad del diseño después de actualizaciones de dependencias
Pruebas con mocks de LLM
Dobles de prueba determinísticos para los 4 proveedores de LLM mediante llm-mock.ts (818 líneas):
- El formato de respuesta de cada proveedor está simulado con precisión
- Llamadas a herramientas, salida estructurada y streaming están cubiertos
- Las pruebas verifican el comportamiento bajo condiciones de timeout, límite de velocidad y error
- Mock de endpoint compatible con OpenAI personalizado para pruebas de LLM auto-hospedado
Líneas base de rendimiento
Métricas de carga de página rastreadas como aserciones de prueba:
- Tiempo hasta interactivo
- Largest Contentful Paint
- Umbrales de tamaño de bundle
El contraste con n8n
Mientras nosotros ejecutamos 24,000+ pruebas cada noche, la plataforma de automatización de código abierto n8n ha acumulado 8 CVEs críticos — varios que requieren solo acceso de editor de workflow (no administrador) para ejecución remota de código. Censys identificó 26,512 instancias expuestas de n8n en la internet pública.
Auto-hospedado no significa auto-seguro. La disciplina de pruebas sí.
Cómo las pruebas alimentan SOC 2
Nuestro conjunto de pruebas no se trata solo de encontrar errores. Es parte de nuestra recolección de evidencia SOC 2:
- CC5.2 (Actividades de Control): El conjunto de pruebas en sí es evidencia de controles de calidad
- CC6.2 (Controles de Acceso): Las pruebas de cumplimiento de RBAC demuestran que los controles de acceso funcionan
- CC7.1 (Operaciones del Sistema): El CI nocturno demuestra monitoreo continuo
- CC8.1 (Gestión de Cambios): Cada PR ejecuta el conjunto completo de pruebas antes de la fusión
El agregador de evidencia SOC 2 (/api/soc2-evidence) referencia la cobertura de pruebas como una métrica clave. Cuando nuestro auditor pregunta “¿cómo aseguran que los cambios no introduzcan regresiones de seguridad?”, tenemos una respuesta concreta: 24,000+ pruebas, 99.18% de cobertura, en cada commit.
El pipeline de CI nocturno
Cada noche, nuestro pipeline de CI:
- Ejecuta el conjunto completo de pruebas unitarias Vitest (~9,500 pruebas)
- Ejecuta pruebas E2E de Playwright (~500 pruebas) contra un despliegue nuevo
- Ejecuta auditorías de accesibilidad en más de 20 páginas clave
- Ejecuta comparaciones de regresión visual
- Reporta la cobertura al equipo
Si alguna prueba falla, el equipo es notificado antes del siguiente día hábil. Si la cobertura cae por debajo del 98%, la compilación falla.
Pruébelo usted mismo
JieGou está disponible para evaluación gratuita. Cada función mencionada aquí — el soporte de 4 proveedores de LLM, el motor de workflow, la recolección de evidencia SOC 2 — está disponible en los planes Enterprise.
Inicie una prueba gratuita o contacte a nuestro equipo para discutir requisitos de cumplimiento.