Skip to content
產品

Quality Guard:持續監控 AI 輸出品質,在使用者察覺前就捕捉到品質漂移

JieGou 的 Quality Guard 持續採樣生產環境執行結果,使用 LLM 評審進行評分,建立品質基準線,並在輸出品質漂移時發出警報——內建自動修復機制。

JT
JieGou Team
· · 4 分鐘閱讀

Bakeoff 能告訴你在某個時間點哪個提示詞比較好。但提示詞會退化。模型更新會改變行為。輸入分布會移位。一個上個月得分 92 的 recipe 今天可能只有 74 分,而你要等到客戶投訴才會知道。

你需要的是持續監控,而不是一次性評估。這就是 Quality Guard 的功能。

Quality Guard 如何運作

Quality Guard 可以從任何 recipe 的詳細頁面附加到該 recipe。啟用後,它會以可配置的比率採樣生產環境執行——預設為 5%,可調整範圍為 1% 到 20%。每個採樣的執行都會使用加權標準,由 LLM 評審自動評分。

評分採用即發即棄方式:絕不會阻塞執行完成。你的生產環境延遲不受影響。評估會在執行完成後非同步進行。

兩個控制機制確保成本可預測:

  • 每日預算上限 — 預設每天 20 次評估,可配置範圍為 1 到 100
  • 評審模型 — 預設使用 Claude Haiku 4.5 以提高成本效益。當評估的重要性足夠高時,可切換至 Sonnet 以獲得更高準確度的評估

預算追蹤由 Redis 支援,具有失敗開放行為——如果 Redis 暫時不可用,評估會繼續進行而不是靜默丟棄。

評估標準

每個採樣的執行使用加權標準評分,分數範圍為 0 到 100:

標準權重衡量內容
相關性30%輸出對輸入的回應程度
完整性25%是否涵蓋請求的所有面向
清晰度20%組織性和可讀性
準確性15%事實正確性,是否有幻覺
格式10%是否符合預期的輸出結構

這些是預設值。你可以自訂標準、調整權重,並針對每個 recipe 更改評審模型。生成結構化 JSON 的 recipe 可能會將格式權重設為 40%。研究摘要 recipe 可能會將準確性權重設為 35%。

基準線建立

當你首次啟用 Quality Guard 時,它會進入收集階段。評估會累積但不進行任何漂移分析——因為還沒有基準線可供比較。

在累積 20 次評估(可配置)後,基準線會自動計算。它會儲存:

  • 總體分數的平均值標準差
  • 百分位數:p5、p25、p50、p75、p95
  • 每個標準的統計數據 — 每個個別標準的平均值和標準差

一旦建立基準線,系統會向所有配置的警報接收者發送通知。從那時起,每個新的評估都會與基準線進行比較。

你可以隨時手動重置或重新計算基準線——在你預期會改變分數的刻意提示詞變更後特別有用。

漂移偵測

Quality Guard 使用最近評估的滾動視窗(預設 30 次,最少 5 次)來偵測兩種類型的漂移:

分數下降。 滾動平均值與基準平均值進行比較。兩個閾值會觸發警報:

  • 警告 — 比基準線下降 10 分(可配置範圍 5-30)
  • 嚴重 — 比基準線下降 20 分(可配置範圍 10-50)

變異突增。 如果滾動標準差超過基準標準差的 2 倍,Quality Guard 會標記為品質變得不穩定——即使平均值沒有改變。這能捕捉到 recipe 在優秀和糟糕輸出之間交替出現的情況。

滾動視窗的最少 5 次評估要求可防止早期雜訊造成的假陽性。

警報機制

當偵測到漂移時,Quality Guard 會透過兩個管道發送通知:

應用程式內通知會立即發送給所有配置的警報接收者。每個通知都包含嚴重程度級別、當前滾動分數、基準分數以及漂移幅度。

電子郵件警報使用嚴重程度色彩樣式——嚴重漂移為紅色,警告為琥珀色。電子郵件包含相同的指標,加上直接連結至 recipe 品質儀表板的連結。

警報冷卻期可防止通知疲勞。預設為 6 小時(可配置範圍為 60 到 1440 分鐘)。在冷卻期間,漂移會繼續追蹤,但會抑制額外的警報。所有警報都可確認並追蹤——你可以看到誰在何時確認了什麼。

自動修復

Quality Guard 不僅會發出警報。它會採取行動。

提示詞優化。 當偵測到漂移時,Quality Guard 會自動觸發提示詞優化分析。它會檢查最近得分最高和最低的執行,識別退化的模式,並建議具體的提示詞改進。速率限制:每 24 小時一次。

迷你 bakeoff。 Quality Guard 可以自動觸發迷你 bakeoff,將當前提示詞與建議的改進進行比較。這形成閉環——偵測到漂移、提出修復方案、評估修復效果,全部無需手動介入。速率限制:每 7 天一次。

Knowledge Base 捕捉。 高品質輸出(分數 >= 85)會自動捕捉到 recipe 的 knowledge base,隨著時間建立優秀範例庫。

Few-shot 提名。 良好輸出(分數 >= 80)會自動提名為 recipe 提示詞的 few-shot 範例。最佳輸出會教導 recipe 如何產生更多類似的輸出。

品質儀表板

品質儀表板讓你能夠檢視所有受監控 recipe 的狀態。

趨勢圖表。 SVG 視覺化顯示分數線(靛藍色)、基準平均值(綠色虛線)、四分位距帶狀區(綠色陰影)和漂移標記——嚴重為紅色圓圈,警告為琥珀色。你可以清楚看到品質何時改變以及改變幅度。

Recipe 迷你趨勢圖。 每個受監控的 recipe 顯示 14 天趨勢迷你圖、滾動 7 天平均值和趨勢箭頭(上升、下降或穩定)。掃視列表就能立即發現哪些 recipe 需要關注。

每個標準的細分。 深入任何 recipe 以查看個別標準的趨勢。一個 recipe 可能保持高相關性和完整性,但準確性卻退化——這種模式在總體分數中是看不見的。

改進報告。 所有 recipe 的摘要視圖:多少改進、多少穩定、多少退化。平均分數變化。觸發的迷你 bakeoff 次數。這是每週團隊審查的視圖。

Quality Guard 與 bakeoff 的差異

Bakeoff 和 Quality Guard 解決不同的問題:

BakeoffQuality Guard
時機一次性、隨需持續性、自動化
比較相對(A vs B)絕對(vs 基準線)
目的實驗並選擇監控並維護
觸發手動自動(生產環境採樣)

它們互補。Quality Guard 監控。Bakeoff 實驗。當 Quality Guard 偵測到漂移時,它可以自動觸發 bakeoff 來測試修復方案。當 bakeoff 選出優勝者並且你部署它時,Quality Guard 會建立新的基準線並監視下一次退化。

成本控制

Quality Guard 設計為可以無限期運行而不會造成成本失控。三個機制確保支出可預測:

  1. 採樣率 — 只有一部分執行會被評估(預設 5%)
  2. 每日預算上限 — 每天評估次數的硬性限制(預設 20 次)
  3. 評審模型選擇 — Haiku 用於成本效益監控,Sonnet 用於高準確度評估

在預設設定下使用 Claude Haiku 4.5 作為評審,一個每天執行 400 次的 recipe 大約需要 20 次評審評估——完全在預算上限內。Redis 支援的預算追蹤確保上限在分散式工作程序間得到執行。

適用方案

Quality Guard 適用於 Pro 方案及以上。了解更多關於 Quality Guard 和其他功能開始免費試用

quality-guard monitoring drift-detection evaluation auto-remediation
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.