Bakeoffはある時点でどのプロンプトが優れているか教えてくれます。しかしプロンプトは劣化します。モデル更新が動作を変えます。入力分布がシフトします。先月92点だったレシピが今日74点かもしれず、顧客が苦情を言うまで分かりません。
一度きりの評価ではなく継続的なモニタリングが必要です。それがQuality Guardです。
Quality Guardの仕組み
レシピの詳細ページからアタッチ。有効にすると、設定可能なレートで本番実行をサンプリング — デフォルト5%(1%から20%まで調整可能)。サンプルされた各実行は加重基準でLLMジャッジにより自動スコアリング。
スコアリングはファイアアンドフォーゲット:実行完了をブロックしません。
評価基準
| 基準 | ウェイト | 測定内容 |
|---|---|---|
| 関連性 | 30% | 出力が入力にどれだけ対応しているか |
| 完全性 | 25% | リクエストのすべての側面がカバーされているか |
| 明確さ | 20% | 構成と可読性 |
| 正確性 | 15% | 事実の正確さ、ハルシネーションの不在 |
| フォーマット | 10% | 期待される出力構造への準拠 |
レシピごとに基準のカスタマイズ、ウェイト調整、ジャッジモデルの変更が可能。
ベースラインの確立
初回有効化時は収集フェーズに入ります。20の評価後にベースラインが自動計算:平均、標準偏差、パーセンタイル(p5、p25、p50、p75、p95)、基準ごとの統計。
ドリフト検出
直近の評価のローリングウィンドウ(デフォルト30)を使用して2種類のドリフトを検出:
スコアドロップ: 警告(ベースラインから10ポイントドロップ)、クリティカル(20ポイントドロップ)。
分散スパイク: ローリング標準偏差がベースラインの2倍を超えると品質が不安定としてフラグ。
アラートと自動修復
プロンプト改善。 ドリフト検出時に自動的にプロンプト改善分析をトリガー。最高スコアと最低スコアの最近の実行を調べ、劣化のパターンを特定し、具体的なプロンプト改善を提案。
ミニBakeoff。 現在のプロンプトと提案された改善を比較する自動ミニBakeoff。
ナレッジベースキャプチャ。 高品質出力(スコア >= 85)を自動的にレシピのナレッジベースにキャプチャ。
Few-Shotノミネーション。 良い出力(スコア >= 80)をFew-Shot例として自動ノミネート。
品質ダッシュボード
トレンドチャート。 スコアライン、ベースライン平均、四分位範囲バンド、ドリフトマーカーを表示するSVGビジュアライゼーション。
レシピスパークライン。 各モニター対象レシピの14日間トレンド、7日ローリング平均、トレンド矢印。
基準ごとの内訳。 個別基準のトレンドにドリルダウン。
コスト管理
3つのメカニズムでコストを予測可能に:サンプリングレート(デフォルト5%)、日次バジェットキャップ(デフォルト20評価)、ジャッジモデル選択(Haikuでコスト効率、Sonnetで高精度)。
Quality GuardはProプラン以上で利用可能です。Quality Guardとその他の機能の詳細または無料トライアルを開始。