Skip to content
工程

24,000+ 項測試:我們如何打造最受嚴格測試的 AI 自動化平台

從 11,666 到 24,000+ 項自動化測試,僅用 3 個月。以下是 JieGou 品質工程如何隨產品擴展。

JT
JieGou Team
· · 3 分鐘閱讀

旅程:11,666 → 17,500 → 24,000+

三個月前,我們發布了第一篇測試透明度文章。JieGou 擁有 11,666 項自動化測試,程式碼覆蓋率 99.18%。這已經超過任何其他 AI 自動化平台發布的數據——因為沒有其他平台會發布測試指標。

自那以來,產品顯著成長。新功能陸續推出:支援 12 個訊息頻道的聊天代理、4 個信任等級的漸進式自主權、程式碼代理工作流程步驟、對話壓縮、會話分支、網站知識庫匯入、自定義工具生命週期掛鉤,以及無頭執行 SDK。每個功能都帶來新的測試覆蓋面。

數字說明了一切:

  • 2026 年 2 月:11,666 項測試
  • 2026 年 2 月底:17,500 項測試
  • 2026 年 3 月:24,000+ 項測試

在不到三個月的時間裡,測試覆蓋率增長了 2 倍——同時每週都在發布重大功能。

我們測試什麼

單元測試 (Vitest)

測試套件的主體。伺服器端邏輯、資料轉換、驗證規則、業務邏輯和工具函數。src/lib/server/ 中的每個函數都有對應的測試覆蓋。關鍵領域:

  • LLM 供應商抽象:基於 Mock 的 Anthropic、OpenAI、Google 和 OpenAI 相容端點測試。工具呼叫、結構化輸出、串流、錯誤條件、斷路器和速率限制。
  • 工作流程引擎:步驟執行、DAG 解析、平行波排程、收斂迴圈、審批關卡狀態機、崩潰恢復檢查點。
  • 認證和 RBAC:5 級權限模型(擁有者 > 管理員 > 經理 > 編輯者 > 檢視者)含 20 項細粒度權限。每個權限邊界都有正向和反向測試。
  • 聊天代理:跨 12 個頻道(LINE、Instagram、Facebook Messenger、WhatsApp、Telegram、Slack、Discord、WeChat、Viber、SMS、電子郵件、網頁聊天)的訊息路由。FAQ 匹配、信心評分、自動回覆邏輯、人工升級規則。
  • 加密:使用每帳戶 HKDF 金鑰衍生的 AES-256-GCM 信封加密 API 金鑰。無停機金鑰輪換。

整合測試

具有實際請求/回應循環的 API 路由測試。每個 +server.ts 端點都有涵蓋以下方面的測試:認證和授權、輸入驗證和錯誤回應、預期輸出的正常路徑、邊緣情況,以及速率限制和斷路器行為。

E2E 測試 (Playwright)

完整瀏覽器自動化,執行真實的用戶旅程:管理員入職流程、部門主管審核流程、開發者工作流程建立、RBAC 執行驗證,以及使用 @axe-core 的 WCAG 2.1 AA 合規無障礙稽核。

LLM Mock 測試

我們的 LLM Mock 系統為所有 4 個供應商系列提供確定性測試替身。這至關重要,因為 AI 輸出是非確定性的。我們測試回應結構和模式合規、工具呼叫序列和參數驗證、串流區塊組裝、錯誤處理,以及供應商特定的差異。

為什麼對企業很重要

SOC 2 證據

我們的測試套件是 SOC 2 證據收集的一部分。測試覆蓋率直接對應到信任服務標準:CC5.2(控制活動)、CC6.2(存取控制)、CC7.1(系統營運)和 CC8.1(變更管理)。

當稽核員問「你如何確保變更不會引入回歸?」時,我們有具體答案:24,000+ 項測試、每次提交都執行、覆蓋率門檻低於 99% 即建置失敗。

競爭訊號

沒有其他 AI 自動化平台發布測試指標。發布我們的測試數量不是行銷——而是負責任的表現。

當我們說 JieGou 已準備好服務企業時,測試套件就是證據。當我們說某個功能可以運作時,有數百項測試來證明它。

品質如何擴展

關鍵洞察是測試數量應該比功能數量增長更快。每個新功能不僅需要功能特定的測試——還需要測試該功能與現有功能的互動方式。這種乘法效應正是測試數量翻倍而功能數量線性增長的原因。

我們的方法:先寫測試的伺服器邏輯、大量使用 Mock 的 LLM 互動、關鍵路徑的 E2E 測試,以及每晚的回歸測試套件。

24,000+ 項測試,持續增長中。

testing quality engineering reliability soc2
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.