Skip to content
工程

99.18% 测试覆盖率、24,000+ 项测试:最受严格测试的 AI 自动化平台

为什么 JieGou 以 99.18% 的覆盖率运行 24,000+ 项自动化测试 — 以及我们的测试基础设施如何直接为 SOC 2 合规证据提供支持。

JT
JieGou Team
· · 3 分钟阅读

AI 自动化平台做出影响真实业务流程的决策。当一个配方产生客户电子邮件,或一个工作流程核准采购单,或一个代理跨部门委派任务 — 输出品质至关重要。如果平台有漏洞,业务就有漏洞。

这就是 JieGou 运行 24,000+ 项自动化测试、达到 99.18% 程式码覆盖率的原因。每晚执行。跨越所有 4 家 LLM 供应商。包含无障碍稽核、视觉回归测试和 RBAC 执行验证。

没有其他 AI 自动化平台公开这些数据。大多数根本没有。

为什么测试对 AI 平台更加重要

传统 SaaS 测试很直观:给定输入 X,预期输出 Y。AI 自动化平台增加了三层复杂度:

  1. 非确定性输出 — LLM 不会返回相同的回应。测试必须验证结构、约束和品质,而非精确字串。
  2. 多供应商差异 — JieGou 支援 4 家 LLM 供应商(Anthropic、OpenAI、Google 及任何 OpenAI 相容端点)。每家有不同的能力、错误模式和回应格式。
  3. 编排复杂度 — 工作流程串连多个步骤,包含条件逻辑、平行执行、审批关卡和收敛回圈。步骤 3 的漏洞可能透过共享状态损坏步骤 7 的输出。

这些挑战正是测试纪律重要的原因。没有它,你会发布无法重现的漏洞,因为它们只在特定 LLM 回应模式下出现。

24,000+ 项测试涵盖什么

单元测试 (Vitest)

我们测试套件的主体 — 伺服器端逻辑、资料转换、验证规则和业务逻辑:

  • LLM 层:供应商路由、BYOK 金钥解析、断路器状态机、并发限制、token 用量追踪
  • 工作流程引擎:步骤执行(配方、条件、回圈、平行、审批、LLM、评估、路由器、聚合器)、DAG 执行、收敛回圈、检查点/恢复
  • 安全:RBAC 执行(5 个角色的 20 项权限)、身份验证守卫、API 金钥加密/解密、会话管理
  • SOC 2 证据:存取审查生成、加密清单、供应商登录、事件回应手册、稽核日志摘要
  • 资料层:Firestore CRUD、Redis 快取、速率限制、死信伫列

E2E 测试 (Playwright)

完整的浏览器自动化测试,验证真实应用程式:

  • 使用者旅程:管理员入职、部门主管审查、开发者工作流程建立
  • 路由覆盖:应用程式中的每条路由(组合包、实体、群组、整合、知识库、录制、定价、重定向)
  • RBAC 执行:负面测试验证未授权使用者收到 403
  • 资料一致性:API 回应 ↔ UI 渲染验证、并发操作处理

无障碍稽核 (@axe-core/playwright)

在关键页面上进行 WCAG 2.1 AA 合规扫描:

  • 色彩对比度
  • ARIA 属性正确性
  • 键盘导航
  • 萤幕阅读器相容性

视觉回归测试

Playwright 截图比较以捕捉意外的 UI 变更:

  • 跨视窗大小的元件渲染
  • 主题一致性(明/暗)
  • 依赖更新后的布局稳定性

LLM 模拟测试

透过 llm-mock.ts(818 行)为所有 4 家 LLM 供应商提供确定性测试替身:

  • 精确模拟每家供应商的回应格式
  • 涵盖工具呼叫、结构化输出和串流
  • 测试验证逾时、速率限制和错误条件下的行为
  • 自架 LLM 测试的自订 OpenAI 相容端点模拟

效能基准

页面载入指标作为测试断言追踪:

  • 可互动时间
  • 最大内容绘制
  • 套件大小阈值

n8n 的对比

当我们每晚运行 24,000+ 项测试时,开源自动化平台 n8n 已累积 8 个严重 CVE — 其中数个只需工作流程编辑器存取权限(非管理员)即可执行远端程式码。Censys 发现 26,512 个暴露在公共网际网路上的 n8n 实例

自架不等于自我保护。测试纪律才是。

测试如何支持 SOC 2

我们的测试套件不仅仅是抓漏洞。它是 SOC 2 证据收集的一部分:

  • CC5.2(控制活动):测试套件本身就是品质控制的证据
  • CC6.2(存取控制):RBAC 执行测试证明存取控制有效
  • CC7.1(系统营运):每晚 CI 证明持续监控
  • CC8.1(变更管理):每个 PR 在合并前运行完整测试套件

SOC 2 证据聚合器(/api/soc2-evidence)将测试覆盖率作为关键指标引用。当稽核员问「你如何确保变更不会引入安全回归?」时,我们有具体答案:24,000+ 项测试、99.18% 覆盖率、每次提交。

每晚 CI 管线

每晚,我们的 CI 管线:

  1. 运行完整的 Vitest 单元测试套件(约 9,500 项测试)
  2. 对全新部署运行 Playwright E2E 测试(约 500 项测试)
  3. 在 20 多个关键页面上运行无障碍稽核
  4. 运行视觉回归比较
  5. 向团队回报覆盖率

如果任何测试失败,团队会在下一个工作日前收到通知。如果覆盖率降至 98% 以下,建置会失败。

自己试试

JieGou 可免费评估。此处提到的每项功能 — 4 供应商 LLM 支援、工作流程引擎、SOC 2 证据收集 — 都在企业方案中提供。

开始免费试用联系我们的团队讨论合规需求。

testing quality security soc2 compliance engineering ci-cd enterprise
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.