24,000+ 项测试：我们如何打造最受严格测试的 AI 自动化平台

旅程：11,666 → 17,500 → 24,000+

三个月前，我们发布了第一篇测试透明度文章。JieGou 拥有 11,666 项自动化测试，程式码覆盖率 99.18%。这已经超过任何其他 AI 自动化平台发布的数据——因为没有其他平台会发布测试指标。

自那以来，产品显著成长。新功能陆续推出：支援 12 个讯息频道的聊天代理、4 个信任等级的渐进式自主权、程式码代理工作流程步骤、对话压缩、会话分支、网站知识库汇入、自定义工具生命周期挂钩，以及无头执行 SDK。每个功能都带来新的测试覆盖面。

数字说明了一切：

在不到三个月的时间里，测试覆盖率增长了 2 倍——同时每周都在发布重大功能。

测试套件的主体。服务器端逻辑、数据转换、验证规则、业务逻辑和工具函数。src/lib/server/ 中的每个函数都有对应的测试覆盖。关键领域：

LLM 供应商抽象：基于 Mock 的 Anthropic、OpenAI、Google 和 OpenAI 兼容端点测试。工具调用、结构化输出、流式传输、错误条件、断路器和速率限制。
工作流程引擎：步骤执行、DAG 解析、并行波排程、收敛回圈、审批关卡状态机、崩溃恢复检查点。
认证和 RBAC：5 级权限模型（拥有者 > 管理员 > 经理 > 编辑者 > 检视者）含 20 项细粒度权限。每个权限边界都有正向和反向测试。
聊天代理：跨 12 个频道的讯息路由。FAQ 匹配、信心评分、自动回复逻辑、人工升级规则。
加密：使用每帐户 HKDF 密钥衍生的 AES-256-GCM 信封加密 API 密钥。无停机密钥轮换。

具有实际请求/响应循环的 API 路由测试。每个 +server.ts 端点都有涵盖认证和授权、输入验证和错误响应、正常路径、边缘情况，以及速率限制和断路器行为的测试。

完整浏览器自动化，执行真实的用户旅程：管理员入职流程、部门主管审核流程、开发者工作流程建立、RBAC 执行验证，以及使用 @axe-core 的 WCAG 2.1 AA 合规无障碍稽核。

我们的 LLM Mock 系统为所有 4 个供应商系列提供确定性测试替身。我们测试响应结构和模式合规、工具调用序列和参数验证、流式区块组装、错误处理，以及供应商特定的差异。

我们的测试套件是 SOC 2 证据收集的一部分。测试覆盖率直接对应到信任服务标准：CC5.2（控制活动）、CC6.2（存取控制）、CC7.1（系统营运）和 CC8.1（变更管理）。

当稽核员问「你如何确保变更不会引入回归？」时，我们有具体答案：24,000+ 项测试、每次提交都执行、覆盖率门槛低于 99% 即建置失败。

没有其他 AI 自动化平台发布测试指标。发布我们的测试数量不是行销——而是负责任的表现。

关键洞察是测试数量应该比功能数量增长更快。每个新功能不仅需要功能特定的测试——还需要测试该功能与现有功能的互动方式。这种乘法效应正是测试数量翻倍而功能数量线性增长的原因。

24,000+ 项测试，持续增长中。