Skip to content
エンジニアリング

99.18%のテストカバレッジ、24,000+テスト:最もテストされたAI自動化プラットフォーム

JieGouが99.18%のカバレッジで24,000+の自動テストを実行する理由——そしてテストインフラがSOC 2コンプライアンスの証跡にどのように直結しているか。

JT
JieGou Team
· · 2 分で読めます

AI自動化プラットフォームは、実際のビジネスプロセスに影響を与える意思決定を行います。recipeが顧客向けメールを生成したり、workflowが発注書を承認したり、エージェントが部門間でタスクを委任したりする場合——その出力は重要です。プラットフォームにバグがあれば、ビジネスにもバグが生じます。

だからこそJieGouは24,000+の自動テスト99.18%のコードカバレッジで実行しています。毎晩。4つのLLMプロバイダーすべてで。アクセシビリティ監査、ビジュアルリグレッションテスト、RBAC適用の検証も含めて。

他のAI自動化プラットフォームでこれらの数値を公開しているところはありません。ほとんどのプラットフォームはそもそもこのような数値を持っていません。

AI プラットフォームにおいてテストがより重要な理由

従来のSaaSテストは単純明快です:入力Xに対して出力Yを期待する。AI自動化プラットフォームには3つの複雑さのレイヤーが加わります:

  1. 非決定的な出力 — LLMは同じレスポンスを2回返しません。テストでは、完全一致の文字列ではなく、構造、制約、品質を検証する必要があります。
  2. マルチプロバイダーの変動性 — JieGouは4つのLLMプロバイダー(Anthropic、OpenAI、Google、およびOpenAI互換エンドポイント)をサポートしています。それぞれ機能、エラーモード、レスポンス形式が異なります。
  3. オーケストレーションの複雑さ — workflowは、条件分岐、並列実行、承認ゲート、収束ループを持つ複数のステップを連鎖させます。ステップ3のバグが共有状態を通じてステップ7の出力を破損させる可能性があります。

これらの課題こそが、テストの規律が重要な理由です。テストなしでは、特定のLLMレスポンスパターンでしか発生しない再現不可能なバグを出荷することになります。

24,000+のテストがカバーする範囲

ユニットテスト(Vitest)

テストスイートの大部分——サーバーサイドロジック、データ変換、バリデーションルール、ビジネスロジック:

  • LLMレイヤー:プロバイダールーティング、BYOKキー解決、サーキットブレーカーステートマシン、同時実行制限、トークン使用量追跡
  • ワークフローエンジン:ステップ実行(recipe、条件、ループ、並列、承認、LLM、評価、ルーター、アグリゲーター)、DAG実行、収束ループ、チェックポイント/再開
  • セキュリティ:RBAC適用(5つのロールにわたる20の権限)、認証ガード、APIキーの暗号化/復号化、セッション管理
  • SOC 2証跡:アクセスレビュー生成、暗号化インベントリ、ベンダーレジスタ、インシデント対応ランブック、監査ログサマリー
  • データレイヤー:Firestore CRUD、Redisキャッシング、レート制限、デッドレターキュー

E2Eテスト(Playwright)

実際のアプリケーションを実行するフルブラウザ自動化テスト:

  • ユーザージャーニー:管理者オンボーディング、部門リードレビュー、開発者ワークフロー作成
  • ルートカバレッジ:アプリケーション内のすべてのルート(バンドル、エンティティ、グループ、インテグレーション、ナレッジベース、レコーディング、料金、リダイレクト)
  • RBAC適用:権限のないユーザーが403を受け取ることを検証するネガティブテスト
  • データ整合性:APIレスポンスとUI表示の検証、並行操作の処理

アクセシビリティ監査(@axe-core/playwright)

主要ページでのWCAG 2.1 AA準拠スキャン:

  • カラーコントラスト比
  • ARIA属性の正確性
  • キーボードナビゲーション
  • スクリーンリーダー互換性

ビジュアルリグレッションテスト

意図しないUI変更を検出するPlaywrightスクリーンショット比較:

  • ビューポートサイズ間のコンポーネントレンダリング
  • テーマの一貫性(ライト/ダーク)
  • 依存関係更新後のレイアウト安定性

LLMモックテスト

llm-mock.ts(818行)による4つのLLMプロバイダーすべての決定論的テストダブル:

  • 各プロバイダーのレスポンス形式を精密にモック
  • ツール呼び出し、構造化出力、ストリーミングをすべてカバー
  • タイムアウト、レート制限、エラー条件下の動作を検証
  • セルフホストLLMテスト用のカスタムOpenAI互換エンドポイントモッキング

パフォーマンスベースライン

テストアサーションとして追跡されるページロードメトリクス:

  • インタラクティブになるまでの時間
  • 最大コンテンツフルペイント
  • バンドルサイズの閾値

n8nとの対比

当社が毎晩24,000+のテストを実行している一方で、オープンソースの自動化プラットフォームn8nは8つの重大なCVEを蓄積しています——その多くはワークフローエディターアクセス(管理者ではなく)だけでリモートコード実行が可能です。Censysは公開インターネット上に26,512の露出したn8nインスタンスを特定しました。

セルフホストはセルフセキュアを意味しません。テストの規律こそがセキュリティを意味します。

テストがSOC 2にどう貢献するか

当社のテストスイートは単にバグを捕捉するためだけのものではありません。SOC 2の証跡収集の一部です:

  • CC5.2(統制活動):テストスイート自体が品質管理の証跡
  • CC6.2(アクセス制御):RBAC適用テストがアクセス制御の機能を証明
  • CC7.1(システム運用):毎晩のCIが継続的モニタリングを証明
  • CC8.1(変更管理):すべてのPRがマージ前にフルテストスイートを実行

SOC 2証跡アグリゲーター(/api/soc2-evidence)は、テストカバレッジを主要メトリクスとして参照しています。監査人が「変更がセキュリティリグレッションを引き起こさないことをどのように保証していますか?」と質問した場合、具体的な回答があります:24,000+テスト、99.18%カバレッジ、すべてのコミットで実行。

ナイトリーCIパイプライン

毎晩、当社のCIパイプラインは以下を実行します:

  1. Vitestユニットテストスイートのフル実行(約9,500テスト)
  2. 新規デプロイメントに対するPlaywright E2Eテスト(約500テスト)の実行
  3. 20以上の主要ページでのアクセシビリティ監査の実行
  4. ビジュアルリグレッション比較の実行
  5. チームへのカバレッジ報告

テストが1つでも失敗すると、翌営業日までにチームに通知されます。カバレッジが98%を下回ると、ビルドが失敗します。

ぜひお試しください

JieGouは無料で評価いただけます。ここで述べたすべての機能——4プロバイダーLLMサポート、ワークフローエンジン、SOC 2証跡収集——はEnterpriseプランでご利用いただけます。

無料トライアルを開始するか、コンプライアンス要件について当社チームにお問い合わせください

testing quality security soc2 compliance engineering ci-cd enterprise
この記事をシェアする

この記事はお役に立ちましたか?

ワークフローのヒント、製品アップデート、自動化ガイドをメールでお届けします。

No spam. Unsubscribe anytime.