如何对你的 AI workflow 进行 A/B 测试

离线评估能告诉你哪个 AI 设定在测试资料上看起来较好。A/B 测试则告诉你哪个在生产环境中表现更好,面对真实使用者和真实输入时。JieGou 的 bakeoff 系统两者皆支援——而本指南着重在即时 A/B 测试的部分。

何时该使用 A/B 测试(相对于离线评估)

离线 bakeoff(在固定的输入集合上比较输出)适合用于:

即时 A/B 测试较适合当:

以下是在 JieGou 中的逐步流程:

进入 bakeoff 区块并选择「A/B Test Routing」作为模式。选择你想比较的两个变体——这些可以是两个 recipe、两个模型设定,或两个 workflow。

预设情况下,流量在变体之间以 50/50 分配。如果你想保守一点,可以调整这个比例——例如 90/10 来限制实验变体的曝光,同时仍能收集资料。

JieGou 使用卡方统计检定来判断何时一个变体明显优于另一个。你可以配置:

当达到自动停止条件时,JieGou 会自动将 100% 的流量路由到获胜的变体并通知你。

测试执行期间,bakeoff 仪表板会显示:

当测试结束时(透过自动停止或手动决定),检视完整结果:分数分布、信赖区间、成本比较,以及执行时间差异。然后将获胜的变体提升为预设值。

A/B 路由决策会快取在 Redis 中。一旦特定的执行环境被分配到某个变体,它在测试期间会持续使用该变体。这避免了同一个 recipe 在连续执行时产生不同结果的混淆情况。

LLM judge 分数是主要指标,但也要考虑这些额外的讯号:

A/B 测试路由适用于 Enterprise 方案。离线 bakeoff(recipe 对 recipe、模型对模型)适用于 Pro 方案。深入了解所有 bakeoff 模式。