Skip to content
工程

99.18% 測試覆蓋率、24,000+ 項測試:最受嚴格測試的 AI 自動化平台

為什麼 JieGou 以 99.18% 的覆蓋率運行 24,000+ 項自動化測試 — 以及我們的測試基礎設施如何直接為 SOC 2 合規證據提供支持。

JT
JieGou Team
· · 3 分鐘閱讀

AI 自動化平台做出影響真實業務流程的決策。當一個配方產生客戶電子郵件,或一個工作流程核准採購單,或一個代理跨部門委派任務 — 輸出品質至關重要。如果平台有漏洞,業務就有漏洞。

這就是 JieGou 運行 24,000+ 項自動化測試、達到 99.18% 程式碼覆蓋率的原因。每晚執行。跨越所有 4 家 LLM 供應商。包含無障礙稽核、視覺回歸測試和 RBAC 執行驗證。

沒有其他 AI 自動化平台公開這些數據。大多數根本沒有。

為什麼測試對 AI 平台更加重要

傳統 SaaS 測試很直觀:給定輸入 X,預期輸出 Y。AI 自動化平台增加了三層複雜度:

  1. 非確定性輸出 — LLM 不會返回相同的回應。測試必須驗證結構、約束和品質,而非精確字串。
  2. 多供應商差異 — JieGou 支援 4 家 LLM 供應商(Anthropic、OpenAI、Google 及任何 OpenAI 相容端點)。每家有不同的能力、錯誤模式和回應格式。
  3. 編排複雜度 — 工作流程串連多個步驟,包含條件邏輯、平行執行、審批關卡和收斂迴圈。步驟 3 的漏洞可能透過共享狀態損壞步驟 7 的輸出。

這些挑戰正是測試紀律重要的原因。沒有它,你會發布無法重現的漏洞,因為它們只在特定 LLM 回應模式下出現。

24,000+ 項測試涵蓋什麼

單元測試 (Vitest)

我們測試套件的主體 — 伺服器端邏輯、資料轉換、驗證規則和業務邏輯:

  • LLM 層:供應商路由、BYOK 金鑰解析、斷路器狀態機、併發限制、token 用量追蹤
  • 工作流程引擎:步驟執行(配方、條件、迴圈、平行、審批、LLM、評估、路由器、聚合器)、DAG 執行、收斂迴圈、檢查點/恢復
  • 安全:RBAC 執行(5 個角色的 20 項權限)、身份驗證守衛、API 金鑰加密/解密、會話管理
  • SOC 2 證據:存取審查生成、加密清單、供應商登錄、事件回應手冊、稽核日誌摘要
  • 資料層:Firestore CRUD、Redis 快取、速率限制、死信佇列

E2E 測試 (Playwright)

完整的瀏覽器自動化測試,驗證真實應用程式:

  • 使用者旅程:管理員入職、部門主管審查、開發者工作流程建立
  • 路由覆蓋:應用程式中的每條路由(組合包、實體、群組、整合、知識庫、錄製、定價、重定向)
  • RBAC 執行:負面測試驗證未授權使用者收到 403
  • 資料一致性:API 回應 ↔ UI 渲染驗證、併發操作處理

無障礙稽核 (@axe-core/playwright)

在關鍵頁面上進行 WCAG 2.1 AA 合規掃描:

  • 色彩對比度
  • ARIA 屬性正確性
  • 鍵盤導航
  • 螢幕閱讀器相容性

視覺回歸測試

Playwright 截圖比較以捕捉意外的 UI 變更:

  • 跨視窗大小的元件渲染
  • 主題一致性(明/暗)
  • 依賴更新後的佈局穩定性

LLM 模擬測試

透過 llm-mock.ts(818 行)為所有 4 家 LLM 供應商提供確定性測試替身:

  • 精確模擬每家供應商的回應格式
  • 涵蓋工具呼叫、結構化輸出和串流
  • 測試驗證逾時、速率限制和錯誤條件下的行為
  • 自架 LLM 測試的自訂 OpenAI 相容端點模擬

效能基準

頁面載入指標作為測試斷言追蹤:

  • 可互動時間
  • 最大內容繪製
  • 套件大小閾值

n8n 的對比

當我們每晚運行 24,000+ 項測試時,開源自動化平台 n8n 已累積 8 個嚴重 CVE — 其中數個只需工作流程編輯器存取權限(非管理員)即可執行遠端程式碼。Censys 發現 26,512 個暴露在公共網際網路上的 n8n 實例

自架不等於自我保護。測試紀律才是。

測試如何支持 SOC 2

我們的測試套件不僅僅是抓漏洞。它是 SOC 2 證據收集的一部分:

  • CC5.2(控制活動):測試套件本身就是品質控制的證據
  • CC6.2(存取控制):RBAC 執行測試證明存取控制有效
  • CC7.1(系統營運):每晚 CI 證明持續監控
  • CC8.1(變更管理):每個 PR 在合併前運行完整測試套件

SOC 2 證據聚合器(/api/soc2-evidence)將測試覆蓋率作為關鍵指標引用。當稽核員問「你如何確保變更不會引入安全回歸?」時,我們有具體答案:24,000+ 項測試、99.18% 覆蓋率、每次提交。

每晚 CI 管線

每晚,我們的 CI 管線:

  1. 運行完整的 Vitest 單元測試套件(約 9,500 項測試)
  2. 對全新部署運行 Playwright E2E 測試(約 500 項測試)
  3. 在 20 多個關鍵頁面上運行無障礙稽核
  4. 運行視覺回歸比較
  5. 向團隊回報覆蓋率

如果任何測試失敗,團隊會在下一個工作日前收到通知。如果覆蓋率降至 98% 以下,建置會失敗。

自己試試

JieGou 可免費評估。此處提到的每項功能 — 4 供應商 LLM 支援、工作流程引擎、SOC 2 證據收集 — 都在企業方案中提供。

開始免費試用聯繫我們的團隊討論合規需求。

testing quality security soc2 compliance engineering ci-cd enterprise
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.