Bakeoff 能告诉你在某个时间点哪个提示词比较好。但提示词会退化。模型更新会改变行为。输入分布会移位。一个上个月得分 92 的 recipe 今天可能只有 74 分,而你要等到客户投诉才会知道。
你需要的是持续监控,而不是一次性评估。这就是 Quality Guard 的功能。
Quality Guard 如何运作
Quality Guard 可以从任何 recipe 的详细页面附加到该 recipe。启用后,它会以可配置的比率采样生产环境执行——预设为 5%,可调整范围为 1% 到 20%。每个采样的执行都会使用加权标准,由 LLM 评审自动评分。
评分采用即发即弃方式:绝不会阻塞执行完成。你的生产环境延迟不受影响。评估会在执行完成后非同步进行。
两个控制机制确保成本可预测:
- 每日预算上限 — 预设每天 20 次评估,可配置范围为 1 到 100
- 评审模型 — 预设使用 Claude Haiku 4.5 以提高成本效益。当评估的重要性足够高时,可切换至 Sonnet 以获得更高准确度的评估
预算追踪由 Redis 支援,具有失败开放行为——如果 Redis 暂时不可用,评估会继续进行而不是静默丢弃。
评估标准
每个采样的执行使用加权标准评分,分数范围为 0 到 100:
| 标准 | 权重 | 衡量内容 |
|---|---|---|
| 相关性 | 30% | 输出对输入的回应程度 |
| 完整性 | 25% | 是否涵盖请求的所有面向 |
| 清晰度 | 20% | 组织性和可读性 |
| 准确性 | 15% | 事实正确性,是否有幻觉 |
| 格式 | 10% | 是否符合预期的输出结构 |
这些是预设值。你可以自订标准、调整权重,并针对每个 recipe 更改评审模型。生成结构化 JSON 的 recipe 可能会将格式权重设为 40%。研究摘要 recipe 可能会将准确性权重设为 35%。
基准线建立
当你首次启用 Quality Guard 时,它会进入收集阶段。评估会累积但不进行任何漂移分析——因为还没有基准线可供比较。
在累积 20 次评估(可配置)后,基准线会自动计算。它会储存:
- 总体分数的平均值和标准差
- 百分位数:p5、p25、p50、p75、p95
- 每个标准的统计数据 — 每个个别标准的平均值和标准差
一旦建立基准线,系统会向所有配置的警报接收者发送通知。从那时起,每个新的评估都会与基准线进行比较。
你可以随时手动重置或重新计算基准线——在你预期会改变分数的刻意提示词变更后特别有用。
漂移侦测
Quality Guard 使用最近评估的滚动视窗(预设 30 次,最少 5 次)来侦测两种类型的漂移:
分数下降。 滚动平均值与基准平均值进行比较。两个阈值会触发警报:
- 警告 — 比基准线下降 10 分(可配置范围 5-30)
- 严重 — 比基准线下降 20 分(可配置范围 10-50)
变异突增。 如果滚动标准差超过基准标准差的 2 倍,Quality Guard 会标记为品质变得不稳定——即使平均值没有改变。这能捕捉到 recipe 在优秀和糟糕输出之间交替出现的情况。
滚动视窗的最少 5 次评估要求可防止早期杂讯造成的假阳性。
警报机制
当侦测到漂移时,Quality Guard 会透过两个管道发送通知:
应用程式内通知会立即发送给所有配置的警报接收者。每个通知都包含严重程度级别、当前滚动分数、基准分数以及漂移幅度。
电子邮件警报使用严重程度色彩样式——严重漂移为红色,警告为琥珀色。电子邮件包含相同的指标,加上直接连结至 recipe 品质仪表板的连结。
警报冷却期可防止通知疲劳。预设为 6 小时(可配置范围为 60 到 1440 分钟)。在冷却期间,漂移会继续追踪,但会抑制额外的警报。所有警报都可确认并追踪——你可以看到谁在何时确认了什么。
自动修复
Quality Guard 不仅会发出警报。它会采取行动。
提示词优化。 当侦测到漂移时,Quality Guard 会自动触发提示词优化分析。它会检查最近得分最高和最低的执行,识别退化的模式,并建议具体的提示词改进。速率限制:每 24 小时一次。
迷你 bakeoff。 Quality Guard 可以自动触发迷你 bakeoff,将当前提示词与建议的改进进行比较。这形成闭环——侦测到漂移、提出修复方案、评估修复效果,全部无需手动介入。速率限制:每 7 天一次。
Knowledge Base 捕捉。 高品质输出(分数 >= 85)会自动捕捉到 recipe 的 knowledge base,随着时间建立优秀范例库。
Few-shot 提名。 良好输出(分数 >= 80)会自动提名为 recipe 提示词的 few-shot 范例。最佳输出会教导 recipe 如何产生更多类似的输出。
品质仪表板
品质仪表板让你能够检视所有受监控 recipe 的状态。
趋势图表。 SVG 视觉化显示分数线(靛蓝色)、基准平均值(绿色虚线)、四分位距带状区(绿色阴影)和漂移标记——严重为红色圆圈,警告为琥珀色。你可以清楚看到品质何时改变以及改变幅度。
Recipe 迷你趋势图。 每个受监控的 recipe 显示 14 天趋势迷你图、滚动 7 天平均值和趋势箭头(上升、下降或稳定)。扫视列表就能立即发现哪些 recipe 需要关注。
每个标准的细分。 深入任何 recipe 以查看个别标准的趋势。一个 recipe 可能保持高相关性和完整性,但准确性却退化——这种模式在总体分数中是看不见的。
改进报告。 所有 recipe 的摘要视图:多少改进、多少稳定、多少退化。平均分数变化。触发的迷你 bakeoff 次数。这是每周团队审查的视图。
Quality Guard 与 bakeoff 的差异
Bakeoff 和 Quality Guard 解决不同的问题:
| Bakeoff | Quality Guard | |
|---|---|---|
| 时机 | 一次性、随需 | 持续性、自动化 |
| 比较 | 相对(A vs B) | 绝对(vs 基准线) |
| 目的 | 实验并选择 | 监控并维护 |
| 触发 | 手动 | 自动(生产环境采样) |
它们互补。Quality Guard 监控。Bakeoff 实验。当 Quality Guard 侦测到漂移时,它可以自动触发 bakeoff 来测试修复方案。当 bakeoff 选出优胜者并且你部署它时,Quality Guard 会建立新的基准线并监视下一次退化。
成本控制
Quality Guard 设计为可以无限期运行而不会造成成本失控。三个机制确保支出可预测:
- 采样率 — 只有一部分执行会被评估(预设 5%)
- 每日预算上限 — 每天评估次数的硬性限制(预设 20 次)
- 评审模型选择 — Haiku 用于成本效益监控,Sonnet 用于高准确度评估
在预设设定下使用 Claude Haiku 4.5 作为评审,一个每天执行 400 次的 recipe 大约需要 20 次评审评估——完全在预算上限内。Redis 支援的预算追踪确保上限在分散式工作程序间得到执行。
适用方案
Quality Guard 适用于 Pro 方案及以上。了解更多关于 Quality Guard 和其他功能或开始免费试用。