24 000+ tests : comment nous construisons la plateforme d'automatisation IA la plus testée

Le parcours : 11 666 à 17 500 à 24 000+

Il y a trois mois, nous avons publié notre premier article sur la transparence des tests. JieGou comptait 11 666 tests automatisés avec 99,18 % de couverture de code. C’était déjà plus que ce que toute autre plateforme d’automatisation IA avait publié — car aucune autre plateforme ne publie de métriques de tests.

Depuis, le produit a considérablement évolué. Nouvelles fonctionnalités livrées : chat agents avec 12 intégrations de canaux de messagerie, graduated autonomy avec 4 niveaux de confiance, une étape de workflow coding agent, conversation compaction, session branching, imports de base de connaissances de sites web, custom tool lifecycle hooks et un SDK pour l’exécution headless. Chaque fonctionnalité a apporté une nouvelle surface de test.

Les chiffres parlent d’eux-mêmes :

Février 2026 : 11 666 tests
Fin février 2026 : 17 500 tests
Mars 2026 : 24 000+ tests

C’est une augmentation de 2x de la couverture de tests en moins de trois mois — tout en livrant des fonctionnalités majeures chaque semaine.

Ce que nous testons

Unit Tests (Vitest)

L’essentiel de la suite. Logique côté serveur, transformations de données, règles de validation, logique métier et fonctions utilitaires. Chaque fonction dans src/lib/server/ a une couverture de tests correspondante. Domaines clés :

Abstraction des fournisseurs LLM : Tests basés sur les mocks pour Anthropic, OpenAI, Google et les endpoints compatibles OpenAI. Tool calling, structured output, streaming, conditions d’erreur, circuit breakers et rate limiting.
Workflow engine : Exécution des étapes, résolution de DAG, planification de waves parallèles, convergence loops, machines à états des approval gates, checkpointing de crash-recovery.
Auth et RBAC : Modèle de permissions à 5 rôles (Owner > Admin > Manager > Editor > Viewer) avec 20 permissions granulaires. Chaque frontière de permission a des tests positifs et négatifs.
Chat agents : Routage des messages sur 12 canaux (LINE, Instagram, Facebook Messenger, WhatsApp, Telegram, Slack, Discord, WeChat, Viber, SMS, email, web chat). Correspondance FAQ, scoring de confiance, logique de réponse automatique, règles d’escalade humaine.
Chiffrement : AES-256-GCM envelope encryption pour les clés API avec dérivation de clés HKDF par compte. Rotation des clés sans interruption de service.

Tests d’intégration

Tests de routes API avec des cycles request/response réalistes. Chaque endpoint +server.ts a des tests couvrant :

Authentification et autorisation
Validation des entrées et réponses d’erreur
Happy path avec les sorties attendues
Cas limites : entrées vides, payloads surdimensionnés, requêtes concurrentes
Comportement du rate limiting et du circuit breaker

Tests E2E (Playwright)

Automatisation complète du navigateur exerçant de véritables parcours utilisateur :

Flux d’onboarding administrateur
Processus de revue des responsables de département
Création de workflows par les développeurs
Vérification de l’application du RBAC (accès non autorisé bloqué)
Cohérence des données entre les réponses API et le rendu UI
Audits d’accessibilité avec @axe-core pour la conformité WCAG 2.1 AA

LLM Mock Testing

Notre système de mocks LLM fournit des test doubles déterministes pour les 4 familles de fournisseurs. C’est crucial car les sorties IA sont non déterministes — on ne peut pas écrire expect(response).toBe("exact string") pour des appels LLM. À la place, nous testons :

Structure de réponse et conformité de schéma
Séquences de tool calling et validation des paramètres
Assemblage des chunks de streaming
Gestion des erreurs : timeouts, rate limits, réponses malformées
Particularités spécifiques à chaque fournisseur (chacun a un formatage JSON différent, des schémas de tool call différents, etc.)

Pourquoi c’est important pour les entreprises

Preuves SOC 2

Notre suite de tests fait partie de la collecte de preuves SOC 2. La couverture de tests correspond directement aux Trust Services Criteria :

CC5.2 (Control Activities) : Suite de tests comme preuve de contrôle qualité
CC6.2 (Access Controls) : Tests d’application RBAC comme preuve de contrôle d’accès
CC7.1 (System Operations) : CI nocturne comme surveillance continue
CC8.1 (Change Management) : PR test gate comme contrôle de gestion des changements

Quand les auditeurs demandent « comment vous assurez-vous que les changements n’introduisent pas de régressions ? », nous avons une réponse concrète : 24 000+ tests, à chaque commit, avec un coverage gate qui fait échouer les builds en dessous de 99 %.

Signal concurrentiel

Aucune autre plateforme d’automatisation IA ne publie de métriques de tests. Ni Zapier (échelle enterprise mais pratiques qualité fermées), ni n8n (8 CVEs début 2026), ni Make, ni aucune des nouvelles plateformes d’agents IA. Publier notre nombre de tests n’est pas du marketing — c’est de la responsabilité.

Quand nous disons que JieGou est prêt pour l’entreprise, la suite de tests en est la preuve. Quand nous disons qu’une fonctionnalité fonctionne, des centaines de tests le démontrent.

Comment la qualité évolue

L’insight clé est que le nombre de tests doit croître plus vite que le nombre de fonctionnalités. Chaque nouvelle fonctionnalité ajoute des tests, mais elle ajoute aussi des tests pour les interactions avec les fonctionnalités existantes. Un nouveau canal de messagerie ne nécessite pas seulement des tests spécifiques au canal — il nécessite des tests sur la façon dont ce canal interagit avec le FAQ matching, le confidence scoring, les approval gates, l’audit logging et le RBAC.

Cet effet multiplicatif explique pourquoi le nombre de tests a doublé alors que le nombre de fonctionnalités a augmenté linéairement. C’est aussi pourquoi les plateformes qui négligent les tests au début trouvent qu’il est de plus en plus difficile d’ajouter des fonctionnalités de manière fiable — la dette technique s’accumule.

Notre approche :

Test-first pour la logique serveur. Chaque nouvelle fonction dans src/lib/server/ a des tests avant ou en même temps que l’implémentation.
Utilisation intensive de mocks pour les interactions LLM. Des mocks déterministes pour tous les fournisseurs, pour que les tests soient rapides et reproductibles.
E2E pour les chemins critiques. Automatisation du navigateur pour les parcours les plus importants : onboarding, création de workflows, exécution et flux d’approbation.
Suite de régression nocturne. La suite complète s’exécute chaque nuit sur toutes les configurations, détectant les dérives que le CI incrémental pourrait manquer.

Et ensuite

Nous ne ralentissons pas. La roadmap inclut davantage de canaux de messagerie, des intégrations MCP plus profondes et des fonctionnalités de governance étendues. Chacune apportera plus de tests. Notre objectif est de maintenir la couverture au-dessus de 99 % tout en continuant à livrer chaque semaine.

Le nombre de tests est un indicateur retardé de la qualité du produit. L’indicateur avancé est que les entreprises peuvent déployer les automatisations JieGou en production en toute confiance — car chaque template, chaque étape de workflow et chaque contrôle de governance a été testé avant d’atteindre leur équipe.

24 000+ tests et ce n’est pas fini.