99,18 % de couverture de tests, 24 000+ tests : la plateforme d'automatisation IA la plus testée

Les plateformes d’automatisation IA prennent des décisions qui affectent de vrais processus métier. Lorsqu’une Recipe génère un email client, qu’un workflow approuve un bon de commande, ou qu’un agent délègue des tâches entre départements — le résultat compte. Si la plateforme a des bugs, l’entreprise a des bugs.

C’est pourquoi JieGou exécute 24 000+ tests automatisés avec 99,18 % de couverture de code. Chaque nuit. Sur les 4 fournisseurs LLM. Avec des audits d’accessibilité, des tests de régression visuelle et la vérification de l’application du RBAC inclus.

Aucune autre plateforme d’automatisation IA ne publie ces chiffres. La plupart ne les ont même pas.

Pourquoi les tests comptent davantage pour les plateformes IA

Les tests SaaS traditionnels sont simples : étant donné l’entrée X, attendez la sortie Y. Les plateformes d’automatisation IA ajoutent trois couches de complexité :

Sorties non déterministes — Les LLM ne renvoient pas la même réponse deux fois. Les tests doivent valider la structure, les contraintes et la qualité plutôt que des chaînes exactes.
Variabilité multi-fournisseur — JieGou prend en charge 4 fournisseurs LLM (Anthropic, OpenAI, Google et tout endpoint compatible OpenAI). Chacun a des capacités, des modes d’erreur et des formats de réponse différents.
Complexité d’orchestration — Les workflows enchaînent plusieurs étapes avec une logique conditionnelle, une exécution parallèle, des portes d’approbation et des boucles de convergence. Un bug à l’étape 3 peut corrompre la sortie de l’étape 7 via l’état partagé.

Ces défis sont précisément la raison pour laquelle la discipline de test est importante. Sans elle, vous livrez des bugs que vous ne pouvez pas reproduire parce qu’ils n’apparaissent que sous des patterns de réponse LLM spécifiques.

Ce que couvrent les 24 000+ tests

Tests unitaires (Vitest)

La majeure partie de notre suite de tests — logique côté serveur, transformations de données, règles de validation et logique métier :

Couche LLM : Routage des fournisseurs, résolution des clés BYOK, machines à états des circuit breakers, limitation de concurrence, suivi de l’utilisation des tokens
Moteur de workflow : Exécution des étapes (recipe, condition, boucle, parallèle, approbation, LLM, eval, routeur, agrégateur), exécution DAG, boucles de convergence, checkpoint/reprise
Sécurité : Application du RBAC (20 permissions sur 5 rôles), auth guard, chiffrement/déchiffrement des clés API, gestion des sessions
Preuves SOC 2 : Génération des revues d’accès, inventaire du chiffrement, registre des fournisseurs, runbook de réponse aux incidents, synthèses du journal d’audit
Couche de données : CRUD Firestore, cache Redis, limitation de débit, file d’attente des messages morts

Tests E2E (Playwright)

Tests d’automatisation complète du navigateur qui exercent l’application réelle :

Parcours utilisateurs : Onboarding administrateur, revue par le responsable de département, création de workflow par le développeur
Couverture des routes : Chaque route de l’application (bundles, entités, groupes, intégrations, bases de connaissances, enregistrements, tarification, redirections)
Application du RBAC : Tests négatifs vérifiant que les utilisateurs non autorisés reçoivent des 403
Cohérence des données : Vérification de la correspondance réponse API / rendu UI, gestion des opérations concurrentes

Audits d’accessibilité (@axe-core/playwright)

Analyse de conformité WCAG 2.1 AA sur les pages clés :

Ratios de contraste des couleurs
Correction des attributs ARIA
Navigation au clavier
Compatibilité avec les lecteurs d’écran

Tests de régression visuelle

Comparaison de captures d’écran Playwright pour détecter les modifications UI involontaires :

Rendu des composants selon les tailles de viewport
Cohérence des thèmes (clair/sombre)
Stabilité de la mise en page après les mises à jour de dépendances

Tests avec mocks LLM

Doublures de test déterministes pour les 4 fournisseurs LLM via llm-mock.ts (818 lignes) :

Le format de réponse de chaque fournisseur est précisément simulé
L’appel d’outils, la sortie structurée et le streaming sont tous couverts
Les tests vérifient le comportement en cas de timeout, de limite de débit et de conditions d’erreur
Simulation d’endpoints personnalisés compatibles OpenAI pour les tests LLM auto-hébergés

Bases de performance

Métriques de chargement des pages suivies comme assertions de test :

Time to interactive
Largest contentful paint
Seuils de taille des bundles

Le contraste avec n8n

Alors que nous exécutons 24 000+ tests chaque nuit, la plateforme d’automatisation open source n8n a accumulé 8 CVE critiques — dont plusieurs ne nécessitant qu’un accès éditeur de workflow (pas administrateur) pour une exécution de code à distance. Censys a identifié 26 512 instances n8n exposées sur l’internet public.

Auto-hébergé ne signifie pas auto-sécurisé. La discipline de test, si.

Comment les tests alimentent SOC 2

Notre suite de tests ne sert pas uniquement à détecter les bugs. Elle fait partie de notre collecte de preuves SOC 2 :

CC5.2 (Activités de contrôle) : La suite de tests elle-même constitue une preuve de contrôles qualité
CC6.2 (Contrôles d’accès) : Les tests d’application du RBAC prouvent que les contrôles d’accès fonctionnent
CC7.1 (Opérations système) : Le CI nocturne prouve la surveillance continue
CC8.1 (Gestion des changements) : Chaque PR exécute la suite complète de tests avant la fusion

L’agrégateur de preuves SOC 2 (/api/soc2-evidence) référence la couverture de tests comme métrique clé. Lorsque notre auditeur demande « comment vous assurez-vous que les changements n’introduisent pas de régressions de sécurité ? », nous avons une réponse concrète : 24 000+ tests, 99,18 % de couverture, à chaque commit.

Le pipeline CI nocturne

Chaque nuit, notre pipeline CI :

Exécute la suite complète de tests unitaires Vitest (~9 500 tests)
Exécute les tests E2E Playwright (~500 tests) sur un déploiement frais
Exécute les audits d’accessibilité sur plus de 20 pages clés
Exécute les comparaisons de régression visuelle
Rapporte la couverture à l’équipe

Si un test échoue, l’équipe est notifiée avant le prochain jour ouvrable. Si la couverture descend en dessous de 98 %, le build échoue.

Essayez vous-même

JieGou est disponible pour évaluation gratuite. Chaque fonctionnalité mentionnée ici — le support de 4 fournisseurs LLM, le moteur de workflow, la collecte de preuves SOC 2 — est disponible sur les plans Enterprise.

Démarrer un essai gratuit ou contacter notre équipe pour discuter de vos exigences de conformité.