Le parcours : 11 666 à 17 500 à 24 000+
Il y a trois mois, nous avons publié notre premier article sur la transparence des tests. JieGou comptait 11 666 tests automatisés avec 99,18 % de couverture de code. C’était déjà plus que ce que toute autre plateforme d’automatisation IA avait publié — car aucune autre plateforme ne publie de métriques de tests.
Depuis, le produit a considérablement évolué. Nouvelles fonctionnalités livrées : chat agents avec 12 intégrations de canaux de messagerie, graduated autonomy avec 4 niveaux de confiance, une étape de workflow coding agent, conversation compaction, session branching, imports de base de connaissances de sites web, custom tool lifecycle hooks et un SDK pour l’exécution headless. Chaque fonctionnalité a apporté une nouvelle surface de test.
Les chiffres parlent d’eux-mêmes :
- Février 2026 : 11 666 tests
- Fin février 2026 : 17 500 tests
- Mars 2026 : 24 000+ tests
C’est une augmentation de 2x de la couverture de tests en moins de trois mois — tout en livrant des fonctionnalités majeures chaque semaine.
Ce que nous testons
Unit Tests (Vitest)
L’essentiel de la suite. Logique côté serveur, transformations de données, règles de validation, logique métier et fonctions utilitaires. Chaque fonction dans src/lib/server/ a une couverture de tests correspondante. Domaines clés :
- Abstraction des fournisseurs LLM : Tests basés sur les mocks pour Anthropic, OpenAI, Google et les endpoints compatibles OpenAI. Tool calling, structured output, streaming, conditions d’erreur, circuit breakers et rate limiting.
- Workflow engine : Exécution des étapes, résolution de DAG, planification de waves parallèles, convergence loops, machines à états des approval gates, checkpointing de crash-recovery.
- Auth et RBAC : Modèle de permissions à 5 rôles (Owner > Admin > Manager > Editor > Viewer) avec 20 permissions granulaires. Chaque frontière de permission a des tests positifs et négatifs.
- Chat agents : Routage des messages sur 12 canaux (LINE, Instagram, Facebook Messenger, WhatsApp, Telegram, Slack, Discord, WeChat, Viber, SMS, email, web chat). Correspondance FAQ, scoring de confiance, logique de réponse automatique, règles d’escalade humaine.
- Chiffrement : AES-256-GCM envelope encryption pour les clés API avec dérivation de clés HKDF par compte. Rotation des clés sans interruption de service.
Tests d’intégration
Tests de routes API avec des cycles request/response réalistes. Chaque endpoint +server.ts a des tests couvrant :
- Authentification et autorisation
- Validation des entrées et réponses d’erreur
- Happy path avec les sorties attendues
- Cas limites : entrées vides, payloads surdimensionnés, requêtes concurrentes
- Comportement du rate limiting et du circuit breaker
Tests E2E (Playwright)
Automatisation complète du navigateur exerçant de véritables parcours utilisateur :
- Flux d’onboarding administrateur
- Processus de revue des responsables de département
- Création de workflows par les développeurs
- Vérification de l’application du RBAC (accès non autorisé bloqué)
- Cohérence des données entre les réponses API et le rendu UI
- Audits d’accessibilité avec @axe-core pour la conformité WCAG 2.1 AA
LLM Mock Testing
Notre système de mocks LLM fournit des test doubles déterministes pour les 4 familles de fournisseurs. C’est crucial car les sorties IA sont non déterministes — on ne peut pas écrire expect(response).toBe("exact string") pour des appels LLM. À la place, nous testons :
- Structure de réponse et conformité de schéma
- Séquences de tool calling et validation des paramètres
- Assemblage des chunks de streaming
- Gestion des erreurs : timeouts, rate limits, réponses malformées
- Particularités spécifiques à chaque fournisseur (chacun a un formatage JSON différent, des schémas de tool call différents, etc.)
Pourquoi c’est important pour les entreprises
Preuves SOC 2
Notre suite de tests fait partie de la collecte de preuves SOC 2. La couverture de tests correspond directement aux Trust Services Criteria :
- CC5.2 (Control Activities) : Suite de tests comme preuve de contrôle qualité
- CC6.2 (Access Controls) : Tests d’application RBAC comme preuve de contrôle d’accès
- CC7.1 (System Operations) : CI nocturne comme surveillance continue
- CC8.1 (Change Management) : PR test gate comme contrôle de gestion des changements
Quand les auditeurs demandent « comment vous assurez-vous que les changements n’introduisent pas de régressions ? », nous avons une réponse concrète : 24 000+ tests, à chaque commit, avec un coverage gate qui fait échouer les builds en dessous de 99 %.
Signal concurrentiel
Aucune autre plateforme d’automatisation IA ne publie de métriques de tests. Ni Zapier (échelle enterprise mais pratiques qualité fermées), ni n8n (8 CVEs début 2026), ni Make, ni aucune des nouvelles plateformes d’agents IA. Publier notre nombre de tests n’est pas du marketing — c’est de la responsabilité.
Quand nous disons que JieGou est prêt pour l’entreprise, la suite de tests en est la preuve. Quand nous disons qu’une fonctionnalité fonctionne, des centaines de tests le démontrent.
Comment la qualité évolue
L’insight clé est que le nombre de tests doit croître plus vite que le nombre de fonctionnalités. Chaque nouvelle fonctionnalité ajoute des tests, mais elle ajoute aussi des tests pour les interactions avec les fonctionnalités existantes. Un nouveau canal de messagerie ne nécessite pas seulement des tests spécifiques au canal — il nécessite des tests sur la façon dont ce canal interagit avec le FAQ matching, le confidence scoring, les approval gates, l’audit logging et le RBAC.
Cet effet multiplicatif explique pourquoi le nombre de tests a doublé alors que le nombre de fonctionnalités a augmenté linéairement. C’est aussi pourquoi les plateformes qui négligent les tests au début trouvent qu’il est de plus en plus difficile d’ajouter des fonctionnalités de manière fiable — la dette technique s’accumule.
Notre approche :
- Test-first pour la logique serveur. Chaque nouvelle fonction dans
src/lib/server/a des tests avant ou en même temps que l’implémentation. - Utilisation intensive de mocks pour les interactions LLM. Des mocks déterministes pour tous les fournisseurs, pour que les tests soient rapides et reproductibles.
- E2E pour les chemins critiques. Automatisation du navigateur pour les parcours les plus importants : onboarding, création de workflows, exécution et flux d’approbation.
- Suite de régression nocturne. La suite complète s’exécute chaque nuit sur toutes les configurations, détectant les dérives que le CI incrémental pourrait manquer.
Et ensuite
Nous ne ralentissons pas. La roadmap inclut davantage de canaux de messagerie, des intégrations MCP plus profondes et des fonctionnalités de governance étendues. Chacune apportera plus de tests. Notre objectif est de maintenir la couverture au-dessus de 99 % tout en continuant à livrer chaque semaine.
Le nombre de tests est un indicateur retardé de la qualité du produit. L’indicateur avancé est que les entreprises peuvent déployer les automatisations JieGou en production en toute confiance — car chaque template, chaque étape de workflow et chaque contrôle de governance a été testé avant d’atteindre leur équipe.
24 000+ tests et ce n’est pas fini.