推出 Bakeoffs:比较 AI Recipes、模型与工作流程

当您建立一个 AI recipe 时,如何知道它是最佳版本?当您选择一个模型时,如何确定它适合这项任务?大多数团队依赖直觉——执行几次、目测输出结果,然后继续前进。这种方法适合原型开发,但不适合正式环境。

今天我们推出 bakeoffs:一个内建系统,用于透过严谨的自动化评估来比较 AI recipes、模型和整个工作流程。

什么是 bakeoff?

Bakeoff 会将相同的输入透过两个或更多 AI 配置执行并对结果评分。评分由独立的 LLM 评审进行——而非产生输出的模型——因此评估尽可能客观。

您可以在六种模式中进行比较:

每个输出都由 LLM 评审根据品质、准确性、相关性和完整性等面向进行评分。

为了提高信赖度,可启用多评审模式,使用 2-3 位独立评审。JieGou 使用 Kendall’s tau 和 Spearman’s rho 等级相关系数计算评审间的一致性,让您了解评审是否达成共识或存在分歧。结果包含 95% 信赖区间和标准差,告诉您结果何时具有统计意义,何时仅是杂讯。

没有足够的真实资料进行有意义的比较?合成输入生成器可从您的 recipe 或工作流程输入 schema 建立多样化的测试案例。它读取 JSON Schema 定义——栏位名称、类型、描述和限制——并产生涵盖各种情境的真实输入。

这对于尚未累积实际使用资料的新 recipes 特别有用。

对于已在正式环境中的 recipes 和工作流程,bakeoffs 支援即时 A/B test 路由。流量在两个变体之间分配,JieGou 使用卡方统计检定追踪效能。当一个变体达到统计显著性时,路由会自动停止将流量发送到表现较差的变体。

路由决策会快取在 Redis 中以确保一致性——同一使用者在多次请求中会看到相同的变体。

设定一个 bakeoff——选择对照组、配置评审、选择输入 schemas——需要仔细思考。范本让您能够储存 bakeoff 配置并在稍后重复使用,这样您就不必在每次想要重新评估时重复这些设定工作。

范本支援可见性范围设定:保持私密、与您的部门共享,或在整个帐号中开放使用。当您的团队为特定使用案例建立标准评估方法时,将其储存为范本可确保每个人都能进行一致的评估。

Bakeoffs 在以下情况最有价值:

Recipe 和模型 bakeoffs 适用于 Pro 方案。工作流程 bakeoffs 和 A/B test 路由适用于 Enterprise 方案。深入了解 bakeoffs 或开始免费试用。