24,000+ 項測試：我們如何打造最受嚴格測試的 AI 自動化平台

旅程：11,666 → 17,500 → 24,000+

三個月前，我們發布了第一篇測試透明度文章。JieGou 擁有 11,666 項自動化測試，程式碼覆蓋率 99.18%。這已經超過任何其他 AI 自動化平台發布的數據——因為沒有其他平台會發布測試指標。

自那以來，產品顯著成長。新功能陸續推出：支援 12 個訊息頻道的聊天代理、4 個信任等級的漸進式自主權、程式碼代理工作流程步驟、對話壓縮、會話分支、網站知識庫匯入、自定義工具生命週期掛鉤，以及無頭執行 SDK。每個功能都帶來新的測試覆蓋面。

數字說明了一切：

在不到三個月的時間裡，測試覆蓋率增長了 2 倍——同時每週都在發布重大功能。

測試套件的主體。伺服器端邏輯、資料轉換、驗證規則、業務邏輯和工具函數。src/lib/server/ 中的每個函數都有對應的測試覆蓋。關鍵領域：

LLM 供應商抽象：基於 Mock 的 Anthropic、OpenAI、Google 和 OpenAI 相容端點測試。工具呼叫、結構化輸出、串流、錯誤條件、斷路器和速率限制。
工作流程引擎：步驟執行、DAG 解析、平行波排程、收斂迴圈、審批關卡狀態機、崩潰恢復檢查點。
認證和 RBAC：5 級權限模型（擁有者 > 管理員 > 經理 > 編輯者 > 檢視者）含 20 項細粒度權限。每個權限邊界都有正向和反向測試。
聊天代理：跨 12 個頻道（LINE、Instagram、Facebook Messenger、WhatsApp、Telegram、Slack、Discord、WeChat、Viber、SMS、電子郵件、網頁聊天）的訊息路由。FAQ 匹配、信心評分、自動回覆邏輯、人工升級規則。
加密：使用每帳戶 HKDF 金鑰衍生的 AES-256-GCM 信封加密 API 金鑰。無停機金鑰輪換。

具有實際請求/回應循環的 API 路由測試。每個 +server.ts 端點都有涵蓋以下方面的測試：認證和授權、輸入驗證和錯誤回應、預期輸出的正常路徑、邊緣情況，以及速率限制和斷路器行為。

完整瀏覽器自動化，執行真實的用戶旅程：管理員入職流程、部門主管審核流程、開發者工作流程建立、RBAC 執行驗證，以及使用 @axe-core 的 WCAG 2.1 AA 合規無障礙稽核。

我們的 LLM Mock 系統為所有 4 個供應商系列提供確定性測試替身。這至關重要，因為 AI 輸出是非確定性的。我們測試回應結構和模式合規、工具呼叫序列和參數驗證、串流區塊組裝、錯誤處理，以及供應商特定的差異。

我們的測試套件是 SOC 2 證據收集的一部分。測試覆蓋率直接對應到信任服務標準：CC5.2（控制活動）、CC6.2（存取控制）、CC7.1（系統營運）和 CC8.1（變更管理）。

當稽核員問「你如何確保變更不會引入回歸？」時，我們有具體答案：24,000+ 項測試、每次提交都執行、覆蓋率門檻低於 99% 即建置失敗。

沒有其他 AI 自動化平台發布測試指標。發布我們的測試數量不是行銷——而是負責任的表現。

當我們說 JieGou 已準備好服務企業時，測試套件就是證據。當我們說某個功能可以運作時，有數百項測試來證明它。

關鍵洞察是測試數量應該比功能數量增長更快。每個新功能不僅需要功能特定的測試——還需要測試該功能與現有功能的互動方式。這種乘法效應正是測試數量翻倍而功能數量線性增長的原因。

我們的方法：先寫測試的伺服器邏輯、大量使用 Mock 的 LLM 互動、關鍵路徑的 E2E 測試，以及每晚的回歸測試套件。

24,000+ 項測試，持續增長中。