Skip to content
Ingenierie

99,18 % de couverture de tests, 24 000+ tests : la plateforme d'automatisation IA la plus testée

Pourquoi JieGou exécute 24 000+ tests automatisés avec 99,18 % de couverture — et comment notre infrastructure de tests alimente directement les preuves de conformité SOC 2.

JT
JieGou Team
· · 6 min de lecture

Les plateformes d’automatisation IA prennent des décisions qui affectent de vrais processus métier. Lorsqu’une Recipe génère un email client, qu’un workflow approuve un bon de commande, ou qu’un agent délègue des tâches entre départements — le résultat compte. Si la plateforme a des bugs, l’entreprise a des bugs.

C’est pourquoi JieGou exécute 24 000+ tests automatisés avec 99,18 % de couverture de code. Chaque nuit. Sur les 4 fournisseurs LLM. Avec des audits d’accessibilité, des tests de régression visuelle et la vérification de l’application du RBAC inclus.

Aucune autre plateforme d’automatisation IA ne publie ces chiffres. La plupart ne les ont même pas.

Pourquoi les tests comptent davantage pour les plateformes IA

Les tests SaaS traditionnels sont simples : étant donné l’entrée X, attendez la sortie Y. Les plateformes d’automatisation IA ajoutent trois couches de complexité :

  1. Sorties non déterministes — Les LLM ne renvoient pas la même réponse deux fois. Les tests doivent valider la structure, les contraintes et la qualité plutôt que des chaînes exactes.
  2. Variabilité multi-fournisseur — JieGou prend en charge 4 fournisseurs LLM (Anthropic, OpenAI, Google et tout endpoint compatible OpenAI). Chacun a des capacités, des modes d’erreur et des formats de réponse différents.
  3. Complexité d’orchestration — Les workflows enchaînent plusieurs étapes avec une logique conditionnelle, une exécution parallèle, des portes d’approbation et des boucles de convergence. Un bug à l’étape 3 peut corrompre la sortie de l’étape 7 via l’état partagé.

Ces défis sont précisément la raison pour laquelle la discipline de test est importante. Sans elle, vous livrez des bugs que vous ne pouvez pas reproduire parce qu’ils n’apparaissent que sous des patterns de réponse LLM spécifiques.

Ce que couvrent les 24 000+ tests

Tests unitaires (Vitest)

La majeure partie de notre suite de tests — logique côté serveur, transformations de données, règles de validation et logique métier :

  • Couche LLM : Routage des fournisseurs, résolution des clés BYOK, machines à états des circuit breakers, limitation de concurrence, suivi de l’utilisation des tokens
  • Moteur de workflow : Exécution des étapes (recipe, condition, boucle, parallèle, approbation, LLM, eval, routeur, agrégateur), exécution DAG, boucles de convergence, checkpoint/reprise
  • Sécurité : Application du RBAC (20 permissions sur 5 rôles), auth guard, chiffrement/déchiffrement des clés API, gestion des sessions
  • Preuves SOC 2 : Génération des revues d’accès, inventaire du chiffrement, registre des fournisseurs, runbook de réponse aux incidents, synthèses du journal d’audit
  • Couche de données : CRUD Firestore, cache Redis, limitation de débit, file d’attente des messages morts

Tests E2E (Playwright)

Tests d’automatisation complète du navigateur qui exercent l’application réelle :

  • Parcours utilisateurs : Onboarding administrateur, revue par le responsable de département, création de workflow par le développeur
  • Couverture des routes : Chaque route de l’application (bundles, entités, groupes, intégrations, bases de connaissances, enregistrements, tarification, redirections)
  • Application du RBAC : Tests négatifs vérifiant que les utilisateurs non autorisés reçoivent des 403
  • Cohérence des données : Vérification de la correspondance réponse API / rendu UI, gestion des opérations concurrentes

Audits d’accessibilité (@axe-core/playwright)

Analyse de conformité WCAG 2.1 AA sur les pages clés :

  • Ratios de contraste des couleurs
  • Correction des attributs ARIA
  • Navigation au clavier
  • Compatibilité avec les lecteurs d’écran

Tests de régression visuelle

Comparaison de captures d’écran Playwright pour détecter les modifications UI involontaires :

  • Rendu des composants selon les tailles de viewport
  • Cohérence des thèmes (clair/sombre)
  • Stabilité de la mise en page après les mises à jour de dépendances

Tests avec mocks LLM

Doublures de test déterministes pour les 4 fournisseurs LLM via llm-mock.ts (818 lignes) :

  • Le format de réponse de chaque fournisseur est précisément simulé
  • L’appel d’outils, la sortie structurée et le streaming sont tous couverts
  • Les tests vérifient le comportement en cas de timeout, de limite de débit et de conditions d’erreur
  • Simulation d’endpoints personnalisés compatibles OpenAI pour les tests LLM auto-hébergés

Bases de performance

Métriques de chargement des pages suivies comme assertions de test :

  • Time to interactive
  • Largest contentful paint
  • Seuils de taille des bundles

Le contraste avec n8n

Alors que nous exécutons 24 000+ tests chaque nuit, la plateforme d’automatisation open source n8n a accumulé 8 CVE critiques — dont plusieurs ne nécessitant qu’un accès éditeur de workflow (pas administrateur) pour une exécution de code à distance. Censys a identifié 26 512 instances n8n exposées sur l’internet public.

Auto-hébergé ne signifie pas auto-sécurisé. La discipline de test, si.

Comment les tests alimentent SOC 2

Notre suite de tests ne sert pas uniquement à détecter les bugs. Elle fait partie de notre collecte de preuves SOC 2 :

  • CC5.2 (Activités de contrôle) : La suite de tests elle-même constitue une preuve de contrôles qualité
  • CC6.2 (Contrôles d’accès) : Les tests d’application du RBAC prouvent que les contrôles d’accès fonctionnent
  • CC7.1 (Opérations système) : Le CI nocturne prouve la surveillance continue
  • CC8.1 (Gestion des changements) : Chaque PR exécute la suite complète de tests avant la fusion

L’agrégateur de preuves SOC 2 (/api/soc2-evidence) référence la couverture de tests comme métrique clé. Lorsque notre auditeur demande « comment vous assurez-vous que les changements n’introduisent pas de régressions de sécurité ? », nous avons une réponse concrète : 24 000+ tests, 99,18 % de couverture, à chaque commit.

Le pipeline CI nocturne

Chaque nuit, notre pipeline CI :

  1. Exécute la suite complète de tests unitaires Vitest (~9 500 tests)
  2. Exécute les tests E2E Playwright (~500 tests) sur un déploiement frais
  3. Exécute les audits d’accessibilité sur plus de 20 pages clés
  4. Exécute les comparaisons de régression visuelle
  5. Rapporte la couverture à l’équipe

Si un test échoue, l’équipe est notifiée avant le prochain jour ouvrable. Si la couverture descend en dessous de 98 %, le build échoue.

Essayez vous-même

JieGou est disponible pour évaluation gratuite. Chaque fonctionnalité mentionnée ici — le support de 4 fournisseurs LLM, le moteur de workflow, la collecte de preuves SOC 2 — est disponible sur les plans Enterprise.

Démarrer un essai gratuit ou contacter notre équipe pour discuter de vos exigences de conformité.

testing quality security soc2 compliance engineering ci-cd enterprise
Partager cet article

Vous avez aime cet article ?

Recevez des astuces workflows, des mises a jour produit et des guides d'automatisation dans votre boite de reception.

No spam. Unsubscribe anytime.