Skip to content
使用指南

如何对你的 AI workflow 进行 A/B 测试

使用 JieGou 的 bakeoff 路由系统在 AI recipe 与 workflow 变体之间设置即时 A/B 测试的实用指南。

JT
JieGou Team
· · 2 分钟阅读

离线评估能告诉你哪个 AI 设定在测试资料上看起来较好。A/B 测试则告诉你哪个在生产环境中表现更好,面对真实使用者和真实输入时。JieGou 的 bakeoff 系统两者皆支援——而本指南着重在即时 A/B 测试的部分。

何时该使用 A/B 测试(相对于离线评估)

离线 bakeoff(在固定的输入集合上比较输出)适合用于:

  • 发布前的初始模型选择
  • 开发期间的 prompt 迭代
  • 比较根本上不同的方法

即时 A/B 测试较适合当:

  • 你已经筛选出 2 个强劲的候选方案
  • 生产环境的输入在某些重要面向上与你的测试集不同
  • 你想要衡量长期的真实世界表现
  • 利害关系人需要生产环境资料来支持决策,而非测试结果

设置 A/B 测试

以下是在 JieGou 中的逐步流程:

步骤 1: 建立具有 A/B 路由的 bakeoff

进入 bakeoff 区块并选择「A/B Test Routing」作为模式。选择你想比较的两个变体——这些可以是两个 recipe、两个模型设定,或两个 workflow。

步骤 2: 配置流量分配

预设情况下,流量在变体之间以 50/50 分配。如果你想保守一点,可以调整这个比例——例如 90/10 来限制实验变体的曝光,同时仍能收集资料。

步骤 3: 设置自动停止条件

JieGou 使用卡方统计检定来判断何时一个变体明显优于另一个。你可以配置:

  • 最小样本数 — 在每个变体至少执行 N 次之前不宣告胜者
  • 显著性门槛 — 宣告胜者的 p-value 门槛(预设值:0.05)

当达到自动停止条件时,JieGou 会自动将 100% 的流量路由到获胜的变体并通知你。

步骤 4: 监控结果

测试执行期间,bakeoff 仪表板会显示:

  • 每个变体的执行次数
  • 随时间变化的 LLM judge 分数
  • 目前的统计显著性
  • 根据目前流量估算达到显著性的时间

步骤 5: 检视并定案

当测试结束时(透过自动停止或手动决定),检视完整结果:分数分布、信赖区间、成本比较,以及执行时间差异。然后将获胜的变体提升为预设值。

一致性保证

A/B 路由决策会快取在 Redis 中。一旦特定的执行环境被分配到某个变体,它在测试期间会持续使用该变体。这避免了同一个 recipe 在连续执行时产生不同结果的混淆情况。

要测量什么

LLM judge 分数是主要指标,但也要考虑这些额外的讯号:

  • 执行成本 — 品质略低但成本少 60% 的变体可能是更好的生产选择
  • 执行时间 — 即使品质相同,更快的回应能改善使用者体验
  • 错误率 — 有 5% 失败率的变体比从不失败的变体差,即使成功时的分数较高

实用技巧

  • 至少执行测试 48 小时以捕捉不同时段和星期几的输入模式变化
  • 不要一次 A/B 测试太多项目 — 同时改变模型和 prompt 会让你无法归因差异来源
  • 在开始前记录你的假设 — 「我预期 Claude 变体在细腻度上得分较高,但成本是 2 倍」能帮助你评估结果是否可行
  • 先使用离线 bakeoff 来缩小范围,然后在生产环境中 A/B 测试前 2 名候选者

可用性

A/B 测试路由适用于 Enterprise 方案。离线 bakeoff(recipe 对 recipe、模型对模型)适用于 Pro 方案。深入了解所有 bakeoff 模式

bakeoffs a-b-testing workflows guides
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.