Skip to content
产品

Quality Guard:持续监控 AI 输出品质,在使用者察觉前就捕捉到品质漂移

JieGou 的 Quality Guard 持续采样生产环境执行结果,使用 LLM 评审进行评分,建立品质基准线,并在输出品质漂移时发出警报——内建自动修复机制。

JT
JieGou Team
· · 4 分钟阅读

Bakeoff 能告诉你在某个时间点哪个提示词比较好。但提示词会退化。模型更新会改变行为。输入分布会移位。一个上个月得分 92 的 recipe 今天可能只有 74 分,而你要等到客户投诉才会知道。

你需要的是持续监控,而不是一次性评估。这就是 Quality Guard 的功能。

Quality Guard 如何运作

Quality Guard 可以从任何 recipe 的详细页面附加到该 recipe。启用后,它会以可配置的比率采样生产环境执行——预设为 5%,可调整范围为 1% 到 20%。每个采样的执行都会使用加权标准,由 LLM 评审自动评分。

评分采用即发即弃方式:绝不会阻塞执行完成。你的生产环境延迟不受影响。评估会在执行完成后非同步进行。

两个控制机制确保成本可预测:

  • 每日预算上限 — 预设每天 20 次评估,可配置范围为 1 到 100
  • 评审模型 — 预设使用 Claude Haiku 4.5 以提高成本效益。当评估的重要性足够高时,可切换至 Sonnet 以获得更高准确度的评估

预算追踪由 Redis 支援,具有失败开放行为——如果 Redis 暂时不可用,评估会继续进行而不是静默丢弃。

评估标准

每个采样的执行使用加权标准评分,分数范围为 0 到 100:

标准权重衡量内容
相关性30%输出对输入的回应程度
完整性25%是否涵盖请求的所有面向
清晰度20%组织性和可读性
准确性15%事实正确性,是否有幻觉
格式10%是否符合预期的输出结构

这些是预设值。你可以自订标准、调整权重,并针对每个 recipe 更改评审模型。生成结构化 JSON 的 recipe 可能会将格式权重设为 40%。研究摘要 recipe 可能会将准确性权重设为 35%。

基准线建立

当你首次启用 Quality Guard 时,它会进入收集阶段。评估会累积但不进行任何漂移分析——因为还没有基准线可供比较。

在累积 20 次评估(可配置)后,基准线会自动计算。它会储存:

  • 总体分数的平均值标准差
  • 百分位数:p5、p25、p50、p75、p95
  • 每个标准的统计数据 — 每个个别标准的平均值和标准差

一旦建立基准线,系统会向所有配置的警报接收者发送通知。从那时起,每个新的评估都会与基准线进行比较。

你可以随时手动重置或重新计算基准线——在你预期会改变分数的刻意提示词变更后特别有用。

漂移侦测

Quality Guard 使用最近评估的滚动视窗(预设 30 次,最少 5 次)来侦测两种类型的漂移:

分数下降。 滚动平均值与基准平均值进行比较。两个阈值会触发警报:

  • 警告 — 比基准线下降 10 分(可配置范围 5-30)
  • 严重 — 比基准线下降 20 分(可配置范围 10-50)

变异突增。 如果滚动标准差超过基准标准差的 2 倍,Quality Guard 会标记为品质变得不稳定——即使平均值没有改变。这能捕捉到 recipe 在优秀和糟糕输出之间交替出现的情况。

滚动视窗的最少 5 次评估要求可防止早期杂讯造成的假阳性。

警报机制

当侦测到漂移时,Quality Guard 会透过两个管道发送通知:

应用程式内通知会立即发送给所有配置的警报接收者。每个通知都包含严重程度级别、当前滚动分数、基准分数以及漂移幅度。

电子邮件警报使用严重程度色彩样式——严重漂移为红色,警告为琥珀色。电子邮件包含相同的指标,加上直接连结至 recipe 品质仪表板的连结。

警报冷却期可防止通知疲劳。预设为 6 小时(可配置范围为 60 到 1440 分钟)。在冷却期间,漂移会继续追踪,但会抑制额外的警报。所有警报都可确认并追踪——你可以看到谁在何时确认了什么。

自动修复

Quality Guard 不仅会发出警报。它会采取行动。

提示词优化。 当侦测到漂移时,Quality Guard 会自动触发提示词优化分析。它会检查最近得分最高和最低的执行,识别退化的模式,并建议具体的提示词改进。速率限制:每 24 小时一次。

迷你 bakeoff。 Quality Guard 可以自动触发迷你 bakeoff,将当前提示词与建议的改进进行比较。这形成闭环——侦测到漂移、提出修复方案、评估修复效果,全部无需手动介入。速率限制:每 7 天一次。

Knowledge Base 捕捉。 高品质输出(分数 >= 85)会自动捕捉到 recipe 的 knowledge base,随着时间建立优秀范例库。

Few-shot 提名。 良好输出(分数 >= 80)会自动提名为 recipe 提示词的 few-shot 范例。最佳输出会教导 recipe 如何产生更多类似的输出。

品质仪表板

品质仪表板让你能够检视所有受监控 recipe 的状态。

趋势图表。 SVG 视觉化显示分数线(靛蓝色)、基准平均值(绿色虚线)、四分位距带状区(绿色阴影)和漂移标记——严重为红色圆圈,警告为琥珀色。你可以清楚看到品质何时改变以及改变幅度。

Recipe 迷你趋势图。 每个受监控的 recipe 显示 14 天趋势迷你图、滚动 7 天平均值和趋势箭头(上升、下降或稳定)。扫视列表就能立即发现哪些 recipe 需要关注。

每个标准的细分。 深入任何 recipe 以查看个别标准的趋势。一个 recipe 可能保持高相关性和完整性,但准确性却退化——这种模式在总体分数中是看不见的。

改进报告。 所有 recipe 的摘要视图:多少改进、多少稳定、多少退化。平均分数变化。触发的迷你 bakeoff 次数。这是每周团队审查的视图。

Quality Guard 与 bakeoff 的差异

Bakeoff 和 Quality Guard 解决不同的问题:

BakeoffQuality Guard
时机一次性、随需持续性、自动化
比较相对(A vs B)绝对(vs 基准线)
目的实验并选择监控并维护
触发手动自动(生产环境采样)

它们互补。Quality Guard 监控。Bakeoff 实验。当 Quality Guard 侦测到漂移时,它可以自动触发 bakeoff 来测试修复方案。当 bakeoff 选出优胜者并且你部署它时,Quality Guard 会建立新的基准线并监视下一次退化。

成本控制

Quality Guard 设计为可以无限期运行而不会造成成本失控。三个机制确保支出可预测:

  1. 采样率 — 只有一部分执行会被评估(预设 5%)
  2. 每日预算上限 — 每天评估次数的硬性限制(预设 20 次)
  3. 评审模型选择 — Haiku 用于成本效益监控,Sonnet 用于高准确度评估

在预设设定下使用 Claude Haiku 4.5 作为评审,一个每天执行 400 次的 recipe 大约需要 20 次评审评估——完全在预算上限内。Redis 支援的预算追踪确保上限在分散式工作程序间得到执行。

适用方案

Quality Guard 适用于 Pro 方案及以上。了解更多关于 Quality Guard 和其他功能开始免费试用

quality-guard monitoring drift-detection evaluation auto-remediation
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.