Quality Guard：持續監控 AI 輸出品質，在使用者察覺前就捕捉到品質漂移

Bakeoff 能告訴你在某個時間點哪個提示詞比較好。但提示詞會退化。模型更新會改變行為。輸入分布會移位。一個上個月得分 92 的 recipe 今天可能只有 74 分，而你要等到客戶投訴才會知道。

你需要的是持續監控，而不是一次性評估。這就是 Quality Guard 的功能。

Quality Guard 如何運作

Quality Guard 可以從任何 recipe 的詳細頁面附加到該 recipe。啟用後，它會以可配置的比率採樣生產環境執行——預設為 5%，可調整範圍為 1% 到 20%。每個採樣的執行都會使用加權標準，由 LLM 評審自動評分。

評分採用即發即棄方式：絕不會阻塞執行完成。你的生產環境延遲不受影響。評估會在執行完成後非同步進行。

兩個控制機制確保成本可預測：

每日預算上限 — 預設每天 20 次評估，可配置範圍為 1 到 100
評審模型 — 預設使用 Claude Haiku 4.5 以提高成本效益。當評估的重要性足夠高時，可切換至 Sonnet 以獲得更高準確度的評估

預算追蹤由 Redis 支援，具有失敗開放行為——如果 Redis 暫時不可用，評估會繼續進行而不是靜默丟棄。

評估標準

每個採樣的執行使用加權標準評分，分數範圍為 0 到 100：

標準	權重	衡量內容
相關性	30%	輸出對輸入的回應程度
完整性	25%	是否涵蓋請求的所有面向
清晰度	20%	組織性和可讀性
準確性	15%	事實正確性，是否有幻覺
格式	10%	是否符合預期的輸出結構

這些是預設值。你可以自訂標準、調整權重，並針對每個 recipe 更改評審模型。生成結構化 JSON 的 recipe 可能會將格式權重設為 40%。研究摘要 recipe 可能會將準確性權重設為 35%。

基準線建立

當你首次啟用 Quality Guard 時，它會進入收集階段。評估會累積但不進行任何漂移分析——因為還沒有基準線可供比較。

在累積 20 次評估（可配置）後，基準線會自動計算。它會儲存：

總體分數的平均值和標準差
百分位數：p5、p25、p50、p75、p95
每個標準的統計數據 — 每個個別標準的平均值和標準差

一旦建立基準線，系統會向所有配置的警報接收者發送通知。從那時起，每個新的評估都會與基準線進行比較。

你可以隨時手動重置或重新計算基準線——在你預期會改變分數的刻意提示詞變更後特別有用。

漂移偵測

Quality Guard 使用最近評估的滾動視窗（預設 30 次，最少 5 次）來偵測兩種類型的漂移：

分數下降。 滾動平均值與基準平均值進行比較。兩個閾值會觸發警報：

警告 — 比基準線下降 10 分（可配置範圍 5-30）
嚴重 — 比基準線下降 20 分（可配置範圍 10-50）

變異突增。 如果滾動標準差超過基準標準差的 2 倍，Quality Guard 會標記為品質變得不穩定——即使平均值沒有改變。這能捕捉到 recipe 在優秀和糟糕輸出之間交替出現的情況。

滾動視窗的最少 5 次評估要求可防止早期雜訊造成的假陽性。

警報機制

當偵測到漂移時，Quality Guard 會透過兩個管道發送通知：

應用程式內通知會立即發送給所有配置的警報接收者。每個通知都包含嚴重程度級別、當前滾動分數、基準分數以及漂移幅度。

電子郵件警報使用嚴重程度色彩樣式——嚴重漂移為紅色，警告為琥珀色。電子郵件包含相同的指標，加上直接連結至 recipe 品質儀表板的連結。

警報冷卻期可防止通知疲勞。預設為 6 小時（可配置範圍為 60 到 1440 分鐘）。在冷卻期間，漂移會繼續追蹤，但會抑制額外的警報。所有警報都可確認並追蹤——你可以看到誰在何時確認了什麼。

自動修復

Quality Guard 不僅會發出警報。它會採取行動。

提示詞優化。 當偵測到漂移時，Quality Guard 會自動觸發提示詞優化分析。它會檢查最近得分最高和最低的執行，識別退化的模式，並建議具體的提示詞改進。速率限制：每 24 小時一次。

迷你 bakeoff。 Quality Guard 可以自動觸發迷你 bakeoff，將當前提示詞與建議的改進進行比較。這形成閉環——偵測到漂移、提出修復方案、評估修復效果，全部無需手動介入。速率限制：每 7 天一次。

Knowledge Base 捕捉。 高品質輸出（分數 >= 85）會自動捕捉到 recipe 的 knowledge base，隨著時間建立優秀範例庫。

Few-shot 提名。 良好輸出（分數 >= 80）會自動提名為 recipe 提示詞的 few-shot 範例。最佳輸出會教導 recipe 如何產生更多類似的輸出。

品質儀表板

品質儀表板讓你能夠檢視所有受監控 recipe 的狀態。

趨勢圖表。 SVG 視覺化顯示分數線（靛藍色）、基準平均值（綠色虛線）、四分位距帶狀區（綠色陰影）和漂移標記——嚴重為紅色圓圈，警告為琥珀色。你可以清楚看到品質何時改變以及改變幅度。

Recipe 迷你趨勢圖。 每個受監控的 recipe 顯示 14 天趨勢迷你圖、滾動 7 天平均值和趨勢箭頭（上升、下降或穩定）。掃視列表就能立即發現哪些 recipe 需要關注。

每個標準的細分。 深入任何 recipe 以查看個別標準的趨勢。一個 recipe 可能保持高相關性和完整性，但準確性卻退化——這種模式在總體分數中是看不見的。

改進報告。 所有 recipe 的摘要視圖：多少改進、多少穩定、多少退化。平均分數變化。觸發的迷你 bakeoff 次數。這是每週團隊審查的視圖。

Quality Guard 與 bakeoff 的差異

Bakeoff 和 Quality Guard 解決不同的問題：

	Bakeoff	Quality Guard
時機	一次性、隨需	持續性、自動化
比較	相對（A vs B）	絕對（vs 基準線）
目的	實驗並選擇	監控並維護
觸發	手動	自動（生產環境採樣）

它們互補。Quality Guard 監控。Bakeoff 實驗。當 Quality Guard 偵測到漂移時，它可以自動觸發 bakeoff 來測試修復方案。當 bakeoff 選出優勝者並且你部署它時，Quality Guard 會建立新的基準線並監視下一次退化。

成本控制

Quality Guard 設計為可以無限期運行而不會造成成本失控。三個機制確保支出可預測：

採樣率 — 只有一部分執行會被評估（預設 5%）
每日預算上限 — 每天評估次數的硬性限制（預設 20 次）
評審模型選擇 — Haiku 用於成本效益監控，Sonnet 用於高準確度評估

在預設設定下使用 Claude Haiku 4.5 作為評審，一個每天執行 400 次的 recipe 大約需要 20 次評審評估——完全在預算上限內。Redis 支援的預算追蹤確保上限在分散式工作程序間得到執行。

適用方案

Quality Guard 適用於 Pro 方案及以上。了解更多關於 Quality Guard 和其他功能或開始免費試用。