Skip to content
プロダクト

Quality Guard:ユーザーより先にドリフトを検出する継続的AI出力モニタリング

JieGouのQuality Guardは本番実行を継続的にサンプリングし、LLMジャッジでスコアリングし、品質ベースラインを確立し、出力品質がドリフトした時にアラートします -- 自動修復機能付き。

JT
JieGou Team
· · 1 分で読めます

Bakeoffはある時点でどのプロンプトが優れているか教えてくれます。しかしプロンプトは劣化します。モデル更新が動作を変えます。入力分布がシフトします。先月92点だったレシピが今日74点かもしれず、顧客が苦情を言うまで分かりません。

一度きりの評価ではなく継続的なモニタリングが必要です。それがQuality Guardです。

Quality Guardの仕組み

レシピの詳細ページからアタッチ。有効にすると、設定可能なレートで本番実行をサンプリング — デフォルト5%(1%から20%まで調整可能)。サンプルされた各実行は加重基準でLLMジャッジにより自動スコアリング。

スコアリングはファイアアンドフォーゲット:実行完了をブロックしません。

評価基準

基準ウェイト測定内容
関連性30%出力が入力にどれだけ対応しているか
完全性25%リクエストのすべての側面がカバーされているか
明確さ20%構成と可読性
正確性15%事実の正確さ、ハルシネーションの不在
フォーマット10%期待される出力構造への準拠

レシピごとに基準のカスタマイズ、ウェイト調整、ジャッジモデルの変更が可能。

ベースラインの確立

初回有効化時は収集フェーズに入ります。20の評価後にベースラインが自動計算:平均、標準偏差、パーセンタイル(p5、p25、p50、p75、p95)、基準ごとの統計。

ドリフト検出

直近の評価のローリングウィンドウ(デフォルト30)を使用して2種類のドリフトを検出:

スコアドロップ: 警告(ベースラインから10ポイントドロップ)、クリティカル(20ポイントドロップ)。

分散スパイク: ローリング標準偏差がベースラインの2倍を超えると品質が不安定としてフラグ。

アラートと自動修復

プロンプト改善。 ドリフト検出時に自動的にプロンプト改善分析をトリガー。最高スコアと最低スコアの最近の実行を調べ、劣化のパターンを特定し、具体的なプロンプト改善を提案。

ミニBakeoff。 現在のプロンプトと提案された改善を比較する自動ミニBakeoff。

ナレッジベースキャプチャ。 高品質出力(スコア >= 85)を自動的にレシピのナレッジベースにキャプチャ。

Few-Shotノミネーション。 良い出力(スコア >= 80)をFew-Shot例として自動ノミネート。

品質ダッシュボード

トレンドチャート。 スコアライン、ベースライン平均、四分位範囲バンド、ドリフトマーカーを表示するSVGビジュアライゼーション。

レシピスパークライン。 各モニター対象レシピの14日間トレンド、7日ローリング平均、トレンド矢印。

基準ごとの内訳。 個別基準のトレンドにドリルダウン。

コスト管理

3つのメカニズムでコストを予測可能に:サンプリングレート(デフォルト5%)、日次バジェットキャップ(デフォルト20評価)、ジャッジモデル選択(Haikuでコスト効率、Sonnetで高精度)。

Quality GuardはProプラン以上で利用可能です。Quality Guardとその他の機能の詳細または無料トライアルを開始

quality-guard monitoring drift-detection evaluation auto-remediation
この記事をシェアする

この記事はお役に立ちましたか?

ワークフローのヒント、製品アップデート、自動化ガイドをメールでお届けします。

No spam. Unsubscribe anytime.