Bakeoff 能告訴你在某個時間點哪個提示詞比較好。但提示詞會退化。模型更新會改變行為。輸入分布會移位。一個上個月得分 92 的 recipe 今天可能只有 74 分,而你要等到客戶投訴才會知道。
你需要的是持續監控,而不是一次性評估。這就是 Quality Guard 的功能。
Quality Guard 如何運作
Quality Guard 可以從任何 recipe 的詳細頁面附加到該 recipe。啟用後,它會以可配置的比率採樣生產環境執行——預設為 5%,可調整範圍為 1% 到 20%。每個採樣的執行都會使用加權標準,由 LLM 評審自動評分。
評分採用即發即棄方式:絕不會阻塞執行完成。你的生產環境延遲不受影響。評估會在執行完成後非同步進行。
兩個控制機制確保成本可預測:
- 每日預算上限 — 預設每天 20 次評估,可配置範圍為 1 到 100
- 評審模型 — 預設使用 Claude Haiku 4.5 以提高成本效益。當評估的重要性足夠高時,可切換至 Sonnet 以獲得更高準確度的評估
預算追蹤由 Redis 支援,具有失敗開放行為——如果 Redis 暫時不可用,評估會繼續進行而不是靜默丟棄。
評估標準
每個採樣的執行使用加權標準評分,分數範圍為 0 到 100:
| 標準 | 權重 | 衡量內容 |
|---|---|---|
| 相關性 | 30% | 輸出對輸入的回應程度 |
| 完整性 | 25% | 是否涵蓋請求的所有面向 |
| 清晰度 | 20% | 組織性和可讀性 |
| 準確性 | 15% | 事實正確性,是否有幻覺 |
| 格式 | 10% | 是否符合預期的輸出結構 |
這些是預設值。你可以自訂標準、調整權重,並針對每個 recipe 更改評審模型。生成結構化 JSON 的 recipe 可能會將格式權重設為 40%。研究摘要 recipe 可能會將準確性權重設為 35%。
基準線建立
當你首次啟用 Quality Guard 時,它會進入收集階段。評估會累積但不進行任何漂移分析——因為還沒有基準線可供比較。
在累積 20 次評估(可配置)後,基準線會自動計算。它會儲存:
- 總體分數的平均值和標準差
- 百分位數:p5、p25、p50、p75、p95
- 每個標準的統計數據 — 每個個別標準的平均值和標準差
一旦建立基準線,系統會向所有配置的警報接收者發送通知。從那時起,每個新的評估都會與基準線進行比較。
你可以隨時手動重置或重新計算基準線——在你預期會改變分數的刻意提示詞變更後特別有用。
漂移偵測
Quality Guard 使用最近評估的滾動視窗(預設 30 次,最少 5 次)來偵測兩種類型的漂移:
分數下降。 滾動平均值與基準平均值進行比較。兩個閾值會觸發警報:
- 警告 — 比基準線下降 10 分(可配置範圍 5-30)
- 嚴重 — 比基準線下降 20 分(可配置範圍 10-50)
變異突增。 如果滾動標準差超過基準標準差的 2 倍,Quality Guard 會標記為品質變得不穩定——即使平均值沒有改變。這能捕捉到 recipe 在優秀和糟糕輸出之間交替出現的情況。
滾動視窗的最少 5 次評估要求可防止早期雜訊造成的假陽性。
警報機制
當偵測到漂移時,Quality Guard 會透過兩個管道發送通知:
應用程式內通知會立即發送給所有配置的警報接收者。每個通知都包含嚴重程度級別、當前滾動分數、基準分數以及漂移幅度。
電子郵件警報使用嚴重程度色彩樣式——嚴重漂移為紅色,警告為琥珀色。電子郵件包含相同的指標,加上直接連結至 recipe 品質儀表板的連結。
警報冷卻期可防止通知疲勞。預設為 6 小時(可配置範圍為 60 到 1440 分鐘)。在冷卻期間,漂移會繼續追蹤,但會抑制額外的警報。所有警報都可確認並追蹤——你可以看到誰在何時確認了什麼。
自動修復
Quality Guard 不僅會發出警報。它會採取行動。
提示詞優化。 當偵測到漂移時,Quality Guard 會自動觸發提示詞優化分析。它會檢查最近得分最高和最低的執行,識別退化的模式,並建議具體的提示詞改進。速率限制:每 24 小時一次。
迷你 bakeoff。 Quality Guard 可以自動觸發迷你 bakeoff,將當前提示詞與建議的改進進行比較。這形成閉環——偵測到漂移、提出修復方案、評估修復效果,全部無需手動介入。速率限制:每 7 天一次。
Knowledge Base 捕捉。 高品質輸出(分數 >= 85)會自動捕捉到 recipe 的 knowledge base,隨著時間建立優秀範例庫。
Few-shot 提名。 良好輸出(分數 >= 80)會自動提名為 recipe 提示詞的 few-shot 範例。最佳輸出會教導 recipe 如何產生更多類似的輸出。
品質儀表板
品質儀表板讓你能夠檢視所有受監控 recipe 的狀態。
趨勢圖表。 SVG 視覺化顯示分數線(靛藍色)、基準平均值(綠色虛線)、四分位距帶狀區(綠色陰影)和漂移標記——嚴重為紅色圓圈,警告為琥珀色。你可以清楚看到品質何時改變以及改變幅度。
Recipe 迷你趨勢圖。 每個受監控的 recipe 顯示 14 天趨勢迷你圖、滾動 7 天平均值和趨勢箭頭(上升、下降或穩定)。掃視列表就能立即發現哪些 recipe 需要關注。
每個標準的細分。 深入任何 recipe 以查看個別標準的趨勢。一個 recipe 可能保持高相關性和完整性,但準確性卻退化——這種模式在總體分數中是看不見的。
改進報告。 所有 recipe 的摘要視圖:多少改進、多少穩定、多少退化。平均分數變化。觸發的迷你 bakeoff 次數。這是每週團隊審查的視圖。
Quality Guard 與 bakeoff 的差異
Bakeoff 和 Quality Guard 解決不同的問題:
| Bakeoff | Quality Guard | |
|---|---|---|
| 時機 | 一次性、隨需 | 持續性、自動化 |
| 比較 | 相對(A vs B) | 絕對(vs 基準線) |
| 目的 | 實驗並選擇 | 監控並維護 |
| 觸發 | 手動 | 自動(生產環境採樣) |
它們互補。Quality Guard 監控。Bakeoff 實驗。當 Quality Guard 偵測到漂移時,它可以自動觸發 bakeoff 來測試修復方案。當 bakeoff 選出優勝者並且你部署它時,Quality Guard 會建立新的基準線並監視下一次退化。
成本控制
Quality Guard 設計為可以無限期運行而不會造成成本失控。三個機制確保支出可預測:
- 採樣率 — 只有一部分執行會被評估(預設 5%)
- 每日預算上限 — 每天評估次數的硬性限制(預設 20 次)
- 評審模型選擇 — Haiku 用於成本效益監控,Sonnet 用於高準確度評估
在預設設定下使用 Claude Haiku 4.5 作為評審,一個每天執行 400 次的 recipe 大約需要 20 次評審評估——完全在預算上限內。Redis 支援的預算追蹤確保上限在分散式工作程序間得到執行。
適用方案
Quality Guard 適用於 Pro 方案及以上。了解更多關於 Quality Guard 和其他功能或開始免費試用。