24.000+ Tests: So bauen wir die am besten getestete KI-Automatisierungsplattform

Der Weg: 11.666 zu 17.500 zu 24.000+

Vor drei Monaten haben wir unseren ersten Beitrag zur Test-Transparenz veröffentlicht. JieGou hatte 11.666 automatisierte Tests bei 99,18 % Code-Abdeckung. Das war bereits mehr als jede andere KI-Automatisierungsplattform jemals veröffentlicht hatte — denn keine andere Plattform veröffentlicht überhaupt Testmetriken.

Seitdem ist das Produkt erheblich gewachsen. Neue Features wurden ausgeliefert: Chat Agents mit 12 Messaging-Kanal-Integrationen, Graduated Autonomy mit 4 Vertrauensstufen, ein Coding Agent Workflow-Schritt, Conversation Compaction, Session Branching, Website-Wissensdatenbank-Importe, Custom Tool Lifecycle Hooks und ein SDK für Headless-Ausführung. Jedes Feature brachte neue Testfläche mit sich.

Die Zahlen sprechen für sich:

Februar 2026: 11.666 Tests
Ende Februar 2026: 17.500 Tests
März 2026: 24.000+ Tests

Das ist eine Verdopplung der Testabdeckung in weniger als drei Monaten — während gleichzeitig jede Woche große Features ausgeliefert wurden.

Was wir testen

Unit Tests (Vitest)

Der Großteil der Suite. Serverseitige Logik, Datentransformationen, Validierungsregeln, Geschäftslogik und Hilfsfunktionen. Jede Funktion in src/lib/server/ hat eine entsprechende Testabdeckung. Wichtige Bereiche:

LLM-Provider-Abstraktion: Mock-basiertes Testen für Anthropic, OpenAI, Google und OpenAI-kompatible Endpunkte. Tool Calling, Structured Output, Streaming, Fehlerbedingungen, Circuit Breakers und Rate Limiting.
Workflow Engine: Schrittausführung, DAG-Auflösung, parallele Wave-Planung, Convergence Loops, Approval Gate State Machines, Crash-Recovery-Checkpointing.
Auth und RBAC: 5-Rollen-Berechtigungsmodell (Owner > Admin > Manager > Editor > Viewer) mit 20 granularen Berechtigungen. Jede Berechtigungsgrenze hat Positiv- und Negativtests.
Chat Agents: Nachrichtenrouting über 12 Kanäle (LINE, Instagram, Facebook Messenger, WhatsApp, Telegram, Slack, Discord, WeChat, Viber, SMS, E-Mail, Web Chat). FAQ-Matching, Confidence Scoring, Auto-Reply-Logik, Eskalationsregeln an menschliche Mitarbeiter.
Verschlüsselung: AES-256-GCM Envelope Encryption für API-Schlüssel mit kontobezogener HKDF-Schlüsselableitung. Schlüsselrotation ohne Ausfallzeit.

Integrationstests

API-Route-Tests mit realistischen Request/Response-Zyklen. Jeder +server.ts-Endpunkt hat Tests, die Folgendes abdecken:

Authentifizierung und Autorisierung
Eingabevalidierung und Fehlerantworten
Happy Path mit erwarteten Ausgaben
Grenzfälle: leere Eingaben, übergroße Payloads, gleichzeitige Anfragen
Rate Limiting und Circuit Breaker-Verhalten

E2E Tests (Playwright)

Vollständige Browser-Automatisierung, die echte Benutzer-Journeys durchläuft:

Admin-Onboarding-Flows
Abteilungsleiter-Review-Prozesse
Entwickler-Workflow-Erstellung
RBAC-Durchsetzungsverifizierung (unautorisierter Zugriff blockiert)
Datenkonsistenz zwischen API-Antworten und UI-Rendering
Barrierefreiheitsprüfungen mit @axe-core für WCAG 2.1 AA-Konformität

LLM Mock Testing

Unser LLM-Mock-System bietet deterministische Test-Doubles für alle 4 Provider-Familien. Das ist entscheidend, weil KI-Ausgaben nicht-deterministisch sind — man kann nicht expect(response).toBe("exact string") für LLM-Aufrufe schreiben. Stattdessen testen wir:

Response-Struktur und Schema-Konformität
Tool Calling-Sequenzen und Parametervalidierung
Streaming-Chunk-Assembly
Fehlerbehandlung: Timeouts, Rate Limits, fehlerhafte Antworten
Provider-spezifische Eigenheiten (jeder hat unterschiedliche JSON-Formatierung, Tool Call Schemas etc.)

Warum es für Unternehmen wichtig ist

SOC 2-Nachweis

Unsere Testsuite ist Teil der SOC 2-Nachweissammlung. Die Testabdeckung bildet direkt auf die Trust Services Criteria ab:

CC5.2 (Control Activities): Testsuite als Qualitätskontrollnachweis
CC6.2 (Access Controls): RBAC-Durchsetzungstests als Zugangskontrollbeleg
CC7.1 (System Operations): Nächtliche CI als kontinuierliches Monitoring
CC8.1 (Change Management): PR Test Gate als Change-Management-Kontrolle

Wenn Prüfer fragen „Wie stellen Sie sicher, dass Änderungen keine Regressionen einführen?”, haben wir eine konkrete Antwort: 24.000+ Tests, bei jedem Commit, mit einem Coverage Gate, das Builds unter 99 % scheitern lässt.

Wettbewerbssignal

Keine andere KI-Automatisierungsplattform veröffentlicht Testmetriken. Nicht Zapier (Enterprise-Maßstab, aber geschlossene Qualitätspraktiken), nicht n8n (8 CVEs Anfang 2026), nicht Make, keine der neuen KI-Agent-Plattformen. Unsere Testzahl zu veröffentlichen ist kein Marketing — es ist Verantwortlichkeit.

Wenn wir sagen, JieGou ist Enterprise-ready, ist die Testsuite der Beweis. Wenn wir sagen, ein Feature funktioniert, gibt es Hunderte von Tests, die es belegen.

Wie Qualität skaliert

Die zentrale Erkenntnis ist, dass die Testanzahl schneller wachsen sollte als die Feature-Anzahl. Jedes neue Feature fügt Tests hinzu, aber es fügt auch Tests für Interaktionen mit bestehenden Features hinzu. Ein neuer Messaging-Kanal braucht nicht nur kanalspezifische Tests — er braucht Tests dafür, wie dieser Kanal mit FAQ-Matching, Confidence Scoring, Approval Gates, Audit Logging und RBAC interagiert.

Dieser multiplikative Effekt ist der Grund, warum sich die Testanzahl verdoppelte, während die Feature-Anzahl linear wuchs. Es ist auch der Grund, warum Plattformen, die frühes Testen überspringen, es zunehmend schwerer finden, Features zuverlässig hinzuzufügen — technische Schulden akkumulieren sich.

Unser Ansatz:

Test-first für Serverlogik. Jede neue Funktion in src/lib/server/ bekommt Tests vor oder zusammen mit der Implementierung.
Mock-intensiv für LLM-Interaktionen. Deterministische Mocks für alle Provider, damit Tests schnell und reproduzierbar sind.
E2E für kritische Pfade. Browser-Automatisierung für die wichtigsten Journeys: Onboarding, Workflow-Erstellung, Ausführung und Freigabe-Flows.
Nächtliche Regressionssuite. Die vollständige Suite läuft jede Nacht über alle Konfigurationen und erkennt Drift, den inkrementelle CI übersehen könnte.

Was kommt als Nächstes

Wir werden nicht langsamer. Die Roadmap umfasst weitere Messaging-Kanäle, tiefere MCP-Integrationen und erweiterte Governance-Features. Jedes wird weitere Tests mitbringen. Unser Ziel ist es, die Abdeckung über 99 % zu halten und gleichzeitig wöchentlich zu liefern.

Die Testanzahl ist ein nachlaufender Indikator für Produktqualität. Der vorauslaufende Indikator ist, dass Unternehmen JieGou-Automatisierungen mit Zuversicht in die Produktion deployen können — weil jedes Template, jeder Workflow-Schritt und jede Governance-Kontrolle getestet wurde, bevor es ihr Team erreicht.

24.000+ Tests und es werden mehr.