当您建立一个 AI recipe 时,如何知道它是最佳版本?当您选择一个模型时,如何确定它适合这项任务?大多数团队依赖直觉——执行几次、目测输出结果,然后继续前进。这种方法适合原型开发,但不适合正式环境。
今天我们推出 bakeoffs:一个内建系统,用于透过严谨的自动化评估来比较 AI recipes、模型和整个工作流程。
什么是 bakeoff?
Bakeoff 会将相同的输入透过两个或更多 AI 配置执行并对结果评分。评分由独立的 LLM 评审进行——而非产生输出的模型——因此评估尽可能客观。
您可以在六种模式中进行比较:
- Recipe vs. recipe — 两个不同的 recipes 处理相同的输入
- Model vs. model — 相同的 recipe 在不同 LLM 供应商上执行(例如 Claude vs. GPT)
- Full matrix — 在单一评估网格中比较每个 recipe × 每个模型的组合
- Workflow vs. workflow — 完整的端到端工作流程执行并排比较
- Workflow model vs. model — 相同的工作流程在各个步骤中使用不同的 LLM 供应商执行
- A/B test — 即时流量分配,将实际的 recipe 执行路由到两个变体之间
评分机制
每个输出都由 LLM 评审根据品质、准确性、相关性和完整性等面向进行评分。
为了提高信赖度,可启用多评审模式,使用 2-3 位独立评审。JieGou 使用 Kendall’s tau 和 Spearman’s rho 等级相关系数计算评审间的一致性,让您了解评审是否达成共识或存在分歧。结果包含 95% 信赖区间和标准差,告诉您结果何时具有统计意义,何时仅是杂讯。
合成输入
没有足够的真实资料进行有意义的比较?合成输入生成器可从您的 recipe 或工作流程输入 schema 建立多样化的测试案例。它读取 JSON Schema 定义——栏位名称、类型、描述和限制——并产生涵盖各种情境的真实输入。
这对于尚未累积实际使用资料的新 recipes 特别有用。
A/B test 路由
对于已在正式环境中的 recipes 和工作流程,bakeoffs 支援即时 A/B test 路由。流量在两个变体之间分配,JieGou 使用卡方统计检定追踪效能。当一个变体达到统计显著性时,路由会自动停止将流量发送到表现较差的变体。
路由决策会快取在 Redis 中以确保一致性——同一使用者在多次请求中会看到相同的变体。
Bakeoff 范本
设定一个 bakeoff——选择对照组、配置评审、选择输入 schemas——需要仔细思考。范本让您能够储存 bakeoff 配置并在稍后重复使用,这样您就不必在每次想要重新评估时重复这些设定工作。
范本支援可见性范围设定:保持私密、与您的部门共享,或在整个帐号中开放使用。当您的团队为特定使用案例建立标准评估方法时,将其储存为范本可确保每个人都能进行一致的评估。
何时使用 bakeoffs
Bakeoffs 在以下情况最有价值:
- 选择模型 — 您正在推出新的 recipe,希望根据输出品质(而非假设)在 Claude、GPT 和 Gemini 之间做选择
- 迭代提示词 — 您已重写 recipe 的提示词,并希望在正式推出前验证新版本确实更好
- 优化成本 — 更便宜的模型可能在某些任务上产生相当的输出,但您需要资料来证明
- 比较工作流程 — 两种不同的自动化策略产生不同的输出,您需要知道哪个在端到端效能上更好
适用方案
Recipe 和模型 bakeoffs 适用于 Pro 方案。工作流程 bakeoffs 和 A/B test 路由适用于 Enterprise 方案。深入了解 bakeoffs 或开始免费试用。