AI 自动化平台做出影响真实业务流程的决策。当一个配方产生客户电子邮件,或一个工作流程核准采购单,或一个代理跨部门委派任务 — 输出品质至关重要。如果平台有漏洞,业务就有漏洞。
这就是 JieGou 运行 24,000+ 项自动化测试、达到 99.18% 程式码覆盖率的原因。每晚执行。跨越所有 4 家 LLM 供应商。包含无障碍稽核、视觉回归测试和 RBAC 执行验证。
没有其他 AI 自动化平台公开这些数据。大多数根本没有。
为什么测试对 AI 平台更加重要
传统 SaaS 测试很直观:给定输入 X,预期输出 Y。AI 自动化平台增加了三层复杂度:
- 非确定性输出 — LLM 不会返回相同的回应。测试必须验证结构、约束和品质,而非精确字串。
- 多供应商差异 — JieGou 支援 4 家 LLM 供应商(Anthropic、OpenAI、Google 及任何 OpenAI 相容端点)。每家有不同的能力、错误模式和回应格式。
- 编排复杂度 — 工作流程串连多个步骤,包含条件逻辑、平行执行、审批关卡和收敛回圈。步骤 3 的漏洞可能透过共享状态损坏步骤 7 的输出。
这些挑战正是测试纪律重要的原因。没有它,你会发布无法重现的漏洞,因为它们只在特定 LLM 回应模式下出现。
24,000+ 项测试涵盖什么
单元测试 (Vitest)
我们测试套件的主体 — 伺服器端逻辑、资料转换、验证规则和业务逻辑:
- LLM 层:供应商路由、BYOK 金钥解析、断路器状态机、并发限制、token 用量追踪
- 工作流程引擎:步骤执行(配方、条件、回圈、平行、审批、LLM、评估、路由器、聚合器)、DAG 执行、收敛回圈、检查点/恢复
- 安全:RBAC 执行(5 个角色的 20 项权限)、身份验证守卫、API 金钥加密/解密、会话管理
- SOC 2 证据:存取审查生成、加密清单、供应商登录、事件回应手册、稽核日志摘要
- 资料层:Firestore CRUD、Redis 快取、速率限制、死信伫列
E2E 测试 (Playwright)
完整的浏览器自动化测试,验证真实应用程式:
- 使用者旅程:管理员入职、部门主管审查、开发者工作流程建立
- 路由覆盖:应用程式中的每条路由(组合包、实体、群组、整合、知识库、录制、定价、重定向)
- RBAC 执行:负面测试验证未授权使用者收到 403
- 资料一致性:API 回应 ↔ UI 渲染验证、并发操作处理
无障碍稽核 (@axe-core/playwright)
在关键页面上进行 WCAG 2.1 AA 合规扫描:
- 色彩对比度
- ARIA 属性正确性
- 键盘导航
- 萤幕阅读器相容性
视觉回归测试
Playwright 截图比较以捕捉意外的 UI 变更:
- 跨视窗大小的元件渲染
- 主题一致性(明/暗)
- 依赖更新后的布局稳定性
LLM 模拟测试
透过 llm-mock.ts(818 行)为所有 4 家 LLM 供应商提供确定性测试替身:
- 精确模拟每家供应商的回应格式
- 涵盖工具呼叫、结构化输出和串流
- 测试验证逾时、速率限制和错误条件下的行为
- 自架 LLM 测试的自订 OpenAI 相容端点模拟
效能基准
页面载入指标作为测试断言追踪:
- 可互动时间
- 最大内容绘制
- 套件大小阈值
n8n 的对比
当我们每晚运行 24,000+ 项测试时,开源自动化平台 n8n 已累积 8 个严重 CVE — 其中数个只需工作流程编辑器存取权限(非管理员)即可执行远端程式码。Censys 发现 26,512 个暴露在公共网际网路上的 n8n 实例。
自架不等于自我保护。测试纪律才是。
测试如何支持 SOC 2
我们的测试套件不仅仅是抓漏洞。它是 SOC 2 证据收集的一部分:
- CC5.2(控制活动):测试套件本身就是品质控制的证据
- CC6.2(存取控制):RBAC 执行测试证明存取控制有效
- CC7.1(系统营运):每晚 CI 证明持续监控
- CC8.1(变更管理):每个 PR 在合并前运行完整测试套件
SOC 2 证据聚合器(/api/soc2-evidence)将测试覆盖率作为关键指标引用。当稽核员问「你如何确保变更不会引入安全回归?」时,我们有具体答案:24,000+ 项测试、99.18% 覆盖率、每次提交。
每晚 CI 管线
每晚,我们的 CI 管线:
- 运行完整的 Vitest 单元测试套件(约 9,500 项测试)
- 对全新部署运行 Playwright E2E 测试(约 500 项测试)
- 在 20 多个关键页面上运行无障碍稽核
- 运行视觉回归比较
- 向团队回报覆盖率
如果任何测试失败,团队会在下一个工作日前收到通知。如果覆盖率降至 98% 以下,建置会失败。
自己试试
JieGou 可免费评估。此处提到的每项功能 — 4 供应商 LLM 支援、工作流程引擎、SOC 2 证据收集 — 都在企业方案中提供。