Quality Guard：持续监控 AI 输出品质，在使用者察觉前就捕捉到品质漂移

Bakeoff 能告诉你在某个时间点哪个提示词比较好。但提示词会退化。模型更新会改变行为。输入分布会移位。一个上个月得分 92 的 recipe 今天可能只有 74 分，而你要等到客户投诉才会知道。

你需要的是持续监控，而不是一次性评估。这就是 Quality Guard 的功能。

Quality Guard 如何运作

Quality Guard 可以从任何 recipe 的详细页面附加到该 recipe。启用后，它会以可配置的比率采样生产环境执行——预设为 5%，可调整范围为 1% 到 20%。每个采样的执行都会使用加权标准，由 LLM 评审自动评分。

评分采用即发即弃方式：绝不会阻塞执行完成。你的生产环境延迟不受影响。评估会在执行完成后非同步进行。

两个控制机制确保成本可预测：

每日预算上限 — 预设每天 20 次评估，可配置范围为 1 到 100
评审模型 — 预设使用 Claude Haiku 4.5 以提高成本效益。当评估的重要性足够高时，可切换至 Sonnet 以获得更高准确度的评估

预算追踪由 Redis 支援，具有失败开放行为——如果 Redis 暂时不可用，评估会继续进行而不是静默丢弃。

评估标准

每个采样的执行使用加权标准评分，分数范围为 0 到 100：

标准	权重	衡量内容
相关性	30%	输出对输入的回应程度
完整性	25%	是否涵盖请求的所有面向
清晰度	20%	组织性和可读性
准确性	15%	事实正确性，是否有幻觉
格式	10%	是否符合预期的输出结构

这些是预设值。你可以自订标准、调整权重，并针对每个 recipe 更改评审模型。生成结构化 JSON 的 recipe 可能会将格式权重设为 40%。研究摘要 recipe 可能会将准确性权重设为 35%。

基准线建立

当你首次启用 Quality Guard 时，它会进入收集阶段。评估会累积但不进行任何漂移分析——因为还没有基准线可供比较。

在累积 20 次评估（可配置）后，基准线会自动计算。它会储存：

总体分数的平均值和标准差
百分位数：p5、p25、p50、p75、p95
每个标准的统计数据 — 每个个别标准的平均值和标准差

一旦建立基准线，系统会向所有配置的警报接收者发送通知。从那时起，每个新的评估都会与基准线进行比较。

你可以随时手动重置或重新计算基准线——在你预期会改变分数的刻意提示词变更后特别有用。

漂移侦测

Quality Guard 使用最近评估的滚动视窗（预设 30 次，最少 5 次）来侦测两种类型的漂移：

分数下降。 滚动平均值与基准平均值进行比较。两个阈值会触发警报：

警告 — 比基准线下降 10 分（可配置范围 5-30）
严重 — 比基准线下降 20 分（可配置范围 10-50）

变异突增。 如果滚动标准差超过基准标准差的 2 倍，Quality Guard 会标记为品质变得不稳定——即使平均值没有改变。这能捕捉到 recipe 在优秀和糟糕输出之间交替出现的情况。

滚动视窗的最少 5 次评估要求可防止早期杂讯造成的假阳性。

警报机制

当侦测到漂移时，Quality Guard 会透过两个管道发送通知：

应用程式内通知会立即发送给所有配置的警报接收者。每个通知都包含严重程度级别、当前滚动分数、基准分数以及漂移幅度。

电子邮件警报使用严重程度色彩样式——严重漂移为红色，警告为琥珀色。电子邮件包含相同的指标，加上直接连结至 recipe 品质仪表板的连结。

警报冷却期可防止通知疲劳。预设为 6 小时（可配置范围为 60 到 1440 分钟）。在冷却期间，漂移会继续追踪，但会抑制额外的警报。所有警报都可确认并追踪——你可以看到谁在何时确认了什么。

自动修复

Quality Guard 不仅会发出警报。它会采取行动。

提示词优化。 当侦测到漂移时，Quality Guard 会自动触发提示词优化分析。它会检查最近得分最高和最低的执行，识别退化的模式，并建议具体的提示词改进。速率限制：每 24 小时一次。

迷你 bakeoff。 Quality Guard 可以自动触发迷你 bakeoff，将当前提示词与建议的改进进行比较。这形成闭环——侦测到漂移、提出修复方案、评估修复效果，全部无需手动介入。速率限制：每 7 天一次。

Knowledge Base 捕捉。 高品质输出（分数 >= 85）会自动捕捉到 recipe 的 knowledge base，随着时间建立优秀范例库。

Few-shot 提名。 良好输出（分数 >= 80）会自动提名为 recipe 提示词的 few-shot 范例。最佳输出会教导 recipe 如何产生更多类似的输出。

品质仪表板

品质仪表板让你能够检视所有受监控 recipe 的状态。

趋势图表。 SVG 视觉化显示分数线（靛蓝色）、基准平均值（绿色虚线）、四分位距带状区（绿色阴影）和漂移标记——严重为红色圆圈，警告为琥珀色。你可以清楚看到品质何时改变以及改变幅度。

Recipe 迷你趋势图。 每个受监控的 recipe 显示 14 天趋势迷你图、滚动 7 天平均值和趋势箭头（上升、下降或稳定）。扫视列表就能立即发现哪些 recipe 需要关注。

每个标准的细分。 深入任何 recipe 以查看个别标准的趋势。一个 recipe 可能保持高相关性和完整性，但准确性却退化——这种模式在总体分数中是看不见的。

改进报告。 所有 recipe 的摘要视图：多少改进、多少稳定、多少退化。平均分数变化。触发的迷你 bakeoff 次数。这是每周团队审查的视图。

Quality Guard 与 bakeoff 的差异

Bakeoff 和 Quality Guard 解决不同的问题：

	Bakeoff	Quality Guard
时机	一次性、随需	持续性、自动化
比较	相对（A vs B）	绝对（vs 基准线）
目的	实验并选择	监控并维护
触发	手动	自动（生产环境采样）

它们互补。Quality Guard 监控。Bakeoff 实验。当 Quality Guard 侦测到漂移时，它可以自动触发 bakeoff 来测试修复方案。当 bakeoff 选出优胜者并且你部署它时，Quality Guard 会建立新的基准线并监视下一次退化。

成本控制

Quality Guard 设计为可以无限期运行而不会造成成本失控。三个机制确保支出可预测：

采样率 — 只有一部分执行会被评估（预设 5%）
每日预算上限 — 每天评估次数的硬性限制（预设 20 次）
评审模型选择 — Haiku 用于成本效益监控，Sonnet 用于高准确度评估

在预设设定下使用 Claude Haiku 4.5 作为评审，一个每天执行 400 次的 recipe 大约需要 20 次评审评估——完全在预算上限内。Redis 支援的预算追踪确保上限在分散式工作程序间得到执行。

适用方案

Quality Guard 适用于 Pro 方案及以上。了解更多关于 Quality Guard 和其他功能或开始免费试用。