Skip to content
エンジニアリング

24,000+テスト:最もテストされたAI自動化プラットフォームの構築方法

3ヶ月で11,666から24,000+の自動テストへ。JieGouの品質エンジニアリングがプロダクトとともにどうスケールするかをご紹介します。

JT
JieGou Team
· · 2 分で読めます

その道のり:11,666から17,500、そして24,000+へ

3ヶ月前、私たちは最初のテスト透明性に関する記事を公開しました。JieGouには11,666の自動テストがあり、コードカバレッジは99.18%でした。これは他のどのAI自動化プラットフォームが公開したものよりも多い数字でした — なぜなら、他のプラットフォームはテストメトリクスを一切公開していないからです。

それ以来、プロダクトは大きく成長しました。新しくリリースされた機能:12のメッセージングチャネル統合を持つchat agents、4つの信頼レベルを持つgraduated autonomy、coding agent workflowステップ、conversation compaction、session branching、ウェブサイトナレッジベースインポート、custom tool lifecycle hooks、そしてヘッドレス実行のためのSDK。各機能が新しいテスト対象領域をもたらしました。

数字が物語っています:

  • 2026年2月:11,666テスト
  • 2026年2月末:17,500テスト
  • 2026年3月:24,000+テスト

3ヶ月未満でテストカバレッジが2倍に — 毎週主要な機能をリリースしながらです。

テスト対象

Unit Tests (Vitest)

スイートの大部分を占めます。サーバーサイドロジック、データ変換、バリデーションルール、ビジネスロジック、ユーティリティ関数。src/lib/server/のすべての関数に対応するテストカバレッジがあります。主要な領域:

  • LLMプロバイダー抽象化:Anthropic、OpenAI、Google、およびOpenAI互換エンドポイントのモックベーステスト。Tool calling、structured output、streaming、エラー条件、circuit breakers、rate limiting。
  • Workflow engine:ステップ実行、DAG解決、並列waveスケジューリング、convergence loops、approval gate状態マシン、crash-recoveryチェックポイント。
  • AuthとRBAC:5ロール権限モデル(Owner > Admin > Manager > Editor > Viewer)と20の細粒度権限。すべての権限境界に正常系と異常系のテストがあります。
  • Chat agents:12チャネル(LINE、Instagram、Facebook Messenger、WhatsApp、Telegram、Slack、Discord、WeChat、Viber、SMS、メール、ウェブチャット)にわたるメッセージルーティング。FAQマッチング、信頼度スコアリング、自動応答ロジック、人間へのエスカレーションルール。
  • 暗号化:アカウントごとのHKDF鍵導出によるAPIキーのAES-256-GCM envelope encryption。ダウンタイムなしの鍵ローテーション。

統合テスト

現実的なリクエスト/レスポンスサイクルによるAPIルートテスト。すべての+server.tsエンドポイントに以下をカバーするテストがあります:

  • 認証と認可
  • 入力バリデーションとエラーレスポンス
  • 期待される出力でのハッピーパス
  • エッジケース:空の入力、過大なペイロード、同時リクエスト
  • Rate limitingとcircuit breakerの動作

E2Eテスト (Playwright)

実際のユーザージャーニーを実行する完全なブラウザ自動化:

  • 管理者オンボーディングフロー
  • 部門リーダーレビュープロセス
  • 開発者ワークフロー作成
  • RBAC適用の検証(不正アクセスのブロック)
  • APIレスポンスとUIレンダリング間のデータ整合性
  • WCAG 2.1 AA準拠のための@axe-coreによるアクセシビリティ監査

LLM Mock Testing

私たちのLLMモックシステムは、4つのプロバイダーファミリーすべてに対して決定論的なテストダブルを提供します。AIの出力は非決定論的であるため、これは非常に重要です — LLM呼び出しに対してexpect(response).toBe("exact string")と書くことはできません。代わりに、以下をテストします:

  • レスポンス構造とスキーマ準拠
  • Tool callingシーケンスとパラメータバリデーション
  • Streamingチャンクアセンブリ
  • エラー処理:タイムアウト、rate limits、不正なレスポンス
  • プロバイダー固有の特性(それぞれ異なるJSONフォーマット、tool callスキーマなど)

エンタープライズにとっての重要性

SOC 2エビデンス

テストスイートはSOC 2エビデンス収集の一部です。テストカバレッジはTrust Services Criteriaに直接マッピングされます:

  • CC5.2 (Control Activities):品質管理エビデンスとしてのテストスイート
  • CC6.2 (Access Controls):アクセス制御の証拠としてのRBAC適用テスト
  • CC7.1 (System Operations):継続的モニタリングとしての夜間CI
  • CC8.1 (Change Management):変更管理コントロールとしてのPR test gate

監査人が「変更がリグレッションを引き起こさないことをどのように保証していますか?」と質問した際、私たちには具体的な回答があります:24,000+テスト、すべてのコミットで実行、99%を下回るとビルドが失敗するcoverage gate付き。

競合シグナル

他のAI自動化プラットフォームでテストメトリクスを公開しているところはありません。Zapier(エンタープライズ規模だがクローズドな品質プラクティス)も、n8n(2026年初頭に8つのCVE)も、Makeも、新しいAIエージェントプラットフォームのいずれも公開していません。テスト数を公開することはマーケティングではなく、説明責任です。

JieGouがエンタープライズ対応と言うとき、テストスイートがその証拠です。機能が動作すると言うとき、それを証明する何百ものテストがあります。

品質のスケーリング

重要な洞察は、テスト数は機能数よりも速く増加すべきだということです。新しい機能はテストを追加しますが、既存の機能との相互作用に対するテストも追加します。新しいメッセージングチャネルには、チャネル固有のテストだけでなく、そのチャネルがFAQマッチング、信頼度スコアリング、approval gates、監査ログ、RBACとどのように相互作用するかのテストも必要です。

この乗数効果が、機能数が線形に増加する中でテスト数が倍増した理由です。また、早期にテストを省略したプラットフォームが、機能を確実に追加することがますます困難になる理由でもあります — 技術的負債は複利で増加します。

私たちのアプローチ:

  1. サーバーロジックにはtest-first。 src/lib/server/の新しい関数はすべて、実装の前または同時にテストが作成されます。
  2. LLMインタラクションにはモック多用。 すべてのプロバイダーに対する決定論的モックにより、テストは高速で再現可能です。
  3. クリティカルパスにはE2E。 最も重要なジャーニーのためのブラウザ自動化:オンボーディング、ワークフロー作成、実行、承認フロー。
  4. 夜間リグレッションスイート。 完全なスイートが毎晩すべての構成で実行され、インクリメンタルCIが見逃す可能性のあるドリフトを検出します。

今後の展望

私たちは減速しません。ロードマップには、さらなるメッセージングチャネル、より深いMCP統合、拡張されたgovernance機能が含まれています。それぞれがさらなるテストをもたらします。私たちの目標は、毎週のリリースを継続しながら、カバレッジを99%以上に維持することです。

テスト数はプロダクト品質の遅行指標です。先行指標は、企業がJieGouの自動化を自信を持って本番環境にデプロイできることです — すべてのテンプレート、すべてのワークフローステップ、すべてのgovernanceコントロールが、チームに届く前にテストされているからです。

24,000+テスト、そしてまだ増え続けています。

testing quality engineering reliability soc2
この記事をシェアする

この記事はお役に立ちましたか?

ワークフローのヒント、製品アップデート、自動化ガイドをメールでお届けします。

No spam. Unsubscribe anytime.