离线评估能告诉你哪个 AI 设定在测试资料上看起来较好。A/B 测试则告诉你哪个在生产环境中表现更好,面对真实使用者和真实输入时。JieGou 的 bakeoff 系统两者皆支援——而本指南着重在即时 A/B 测试的部分。
何时该使用 A/B 测试(相对于离线评估)
离线 bakeoff(在固定的输入集合上比较输出)适合用于:
- 发布前的初始模型选择
- 开发期间的 prompt 迭代
- 比较根本上不同的方法
即时 A/B 测试较适合当:
- 你已经筛选出 2 个强劲的候选方案
- 生产环境的输入在某些重要面向上与你的测试集不同
- 你想要衡量长期的真实世界表现
- 利害关系人需要生产环境资料来支持决策,而非测试结果
设置 A/B 测试
以下是在 JieGou 中的逐步流程:
步骤 1: 建立具有 A/B 路由的 bakeoff
进入 bakeoff 区块并选择「A/B Test Routing」作为模式。选择你想比较的两个变体——这些可以是两个 recipe、两个模型设定,或两个 workflow。
步骤 2: 配置流量分配
预设情况下,流量在变体之间以 50/50 分配。如果你想保守一点,可以调整这个比例——例如 90/10 来限制实验变体的曝光,同时仍能收集资料。
步骤 3: 设置自动停止条件
JieGou 使用卡方统计检定来判断何时一个变体明显优于另一个。你可以配置:
- 最小样本数 — 在每个变体至少执行 N 次之前不宣告胜者
- 显著性门槛 — 宣告胜者的 p-value 门槛(预设值:0.05)
当达到自动停止条件时,JieGou 会自动将 100% 的流量路由到获胜的变体并通知你。
步骤 4: 监控结果
测试执行期间,bakeoff 仪表板会显示:
- 每个变体的执行次数
- 随时间变化的 LLM judge 分数
- 目前的统计显著性
- 根据目前流量估算达到显著性的时间
步骤 5: 检视并定案
当测试结束时(透过自动停止或手动决定),检视完整结果:分数分布、信赖区间、成本比较,以及执行时间差异。然后将获胜的变体提升为预设值。
一致性保证
A/B 路由决策会快取在 Redis 中。一旦特定的执行环境被分配到某个变体,它在测试期间会持续使用该变体。这避免了同一个 recipe 在连续执行时产生不同结果的混淆情况。
要测量什么
LLM judge 分数是主要指标,但也要考虑这些额外的讯号:
- 执行成本 — 品质略低但成本少 60% 的变体可能是更好的生产选择
- 执行时间 — 即使品质相同,更快的回应能改善使用者体验
- 错误率 — 有 5% 失败率的变体比从不失败的变体差,即使成功时的分数较高
实用技巧
- 至少执行测试 48 小时以捕捉不同时段和星期几的输入模式变化
- 不要一次 A/B 测试太多项目 — 同时改变模型和 prompt 会让你无法归因差异来源
- 在开始前记录你的假设 — 「我预期 Claude 变体在细腻度上得分较高,但成本是 2 倍」能帮助你评估结果是否可行
- 先使用离线 bakeoff 来缩小范围,然后在生产环境中 A/B 测试前 2 名候选者
可用性
A/B 测试路由适用于 Enterprise 方案。离线 bakeoff(recipe 对 recipe、模型对模型)适用于 Pro 方案。深入了解所有 bakeoff 模式。