Quality Guard：ユーザーより先にドリフトを検出する継続的AI出力モニタリング

JieGouのQuality Guardは本番実行を継続的にサンプリングし、LLMジャッジでスコアリングし、品質ベースラインを確立し、出力品質がドリフトした時にアラートします -- 自動修復機能付き。

JieGou Team · 2026年2月23日 · 1 分で読めます

Bakeoffはある時点でどのプロンプトが優れているか教えてくれます。しかしプロンプトは劣化します。モデル更新が動作を変えます。入力分布がシフトします。先月92点だったレシピが今日74点かもしれず、顧客が苦情を言うまで分かりません。

一度きりの評価ではなく継続的なモニタリングが必要です。それがQuality Guardです。

Quality Guardの仕組み

レシピの詳細ページからアタッチ。有効にすると、設定可能なレートで本番実行をサンプリング — デフォルト5%（1%から20%まで調整可能）。サンプルされた各実行は加重基準でLLMジャッジにより自動スコアリング。

スコアリングはファイアアンドフォーゲット：実行完了をブロックしません。

レシピごとに基準のカスタマイズ、ウェイト調整、ジャッジモデルの変更が可能。

初回有効化時は収集フェーズに入ります。20の評価後にベースラインが自動計算：平均、標準偏差、パーセンタイル（p5、p25、p50、p75、p95）、基準ごとの統計。

直近の評価のローリングウィンドウ（デフォルト30）を使用して2種類のドリフトを検出：

スコアドロップ： 警告（ベースラインから10ポイントドロップ）、クリティカル（20ポイントドロップ）。

分散スパイク： ローリング標準偏差がベースラインの2倍を超えると品質が不安定としてフラグ。

プロンプト改善。 ドリフト検出時に自動的にプロンプト改善分析をトリガー。最高スコアと最低スコアの最近の実行を調べ、劣化のパターンを特定し、具体的なプロンプト改善を提案。

ミニBakeoff。 現在のプロンプトと提案された改善を比較する自動ミニBakeoff。

ナレッジベースキャプチャ。 高品質出力（スコア >= 85）を自動的にレシピのナレッジベースにキャプチャ。

Few-Shotノミネーション。 良い出力（スコア >= 80）をFew-Shot例として自動ノミネート。

トレンドチャート。 スコアライン、ベースライン平均、四分位範囲バンド、ドリフトマーカーを表示するSVGビジュアライゼーション。

レシピスパークライン。 各モニター対象レシピの14日間トレンド、7日ローリング平均、トレンド矢印。

基準ごとの内訳。 個別基準のトレンドにドリルダウン。

3つのメカニズムでコストを予測可能に：サンプリングレート（デフォルト5%）、日次バジェットキャップ（デフォルト20評価）、ジャッジモデル選択（Haikuでコスト効率、Sonnetで高精度）。

Quality GuardはProプラン以上で利用可能です。Quality Guardとその他の機能の詳細または無料トライアルを開始。