Skip to content

GPT-5 in preview. Claude 4.6 GA. Gemini 2.5 Pro. Llama 4 open-weight. Every platform now supports multiple models — only JieGou lets you prove which is best on your data.

不只是执行 AI —
更要衡量效果

并列比较配方、模型和整个工作流程。使用 LLM 裁判评分、多裁判共识和即时 A/B 路由,为每个使用案例找到最佳配置。

Bakeoff 模式

六种方式评估您的 AI

从简单的配方比较到即时流量路由,选择适合您需求的评估方式。

配方对配方 Pro

以相同输入比较两个不同的配方

配方对模型 Pro

相同配方,不同 LLM 供应商或模型

多裁判 Pro

2-3 个独立 LLM 裁判,共识评分

工作流程对工作流程 Enterprise

完整的端到端工作流程比较

A/B 测试路由 Enterprise

具有统计自动停止的即时流量分割

合成输入 Pro

从输入 Schema 自动生成测试资料

配方比较

配方对配方,模型对模型

使用相同输入分别执行不同配方或在不同模型上执行同一配方。并列查看输出,让 LLM 裁判自动为每个结果在品质、准确度和相关性上评分。

  • 以相同输入比较两个配方
  • 在不同 LLM 供应商间测试同一配方
  • 并列输出显示,含差异标记
  • LLM 裁判自动为每个输出评分

多裁判评估

具有统计信心的共识评分

使用二至三个独立 LLM 裁判来评估输出。JieGou 使用 Kendall tau 和 Spearman rho 计算裁判间一致性,并报告 95% 信赖区间,让您知道结果何时具有统计意义。

  • 每次评估 2-3 个独立 LLM 裁判
  • Kendall tau 和 Spearman rho 相关性
  • 95% 信赖区间及标准差
  • 含多裁判乘数的成本估算

工作流程 Bakeoff

端到端比较完整工作流程

超越单一配方。让完整工作流程互相对决,比较端到端输出品质、执行时间和成本。非常适合在确定方案前评估不同的自动化策略。

  • 含 Token 追踪的完整工作流程执行
  • 比较总成本和执行时间
  • 端到端输出品质评分
  • 企业方案可用

A/B 测试路由

具有自动停止的即时流量分割

在配方或工作流程变体间路由即时执行流量。JieGou 使用卡方统计检定追踪效能,并在优胜者达到统计显著性时自动停止路由到劣势变体。

  • 在两个变体间分割即时流量
  • 卡方统计检定确认显著性
  • 确定优胜者时自动停止
  • Redis 快取路由决策确保一致性

合成输入

从 Schema 自动生成测试资料

没有足够的真实资料进行有意义的比较?JieGou 从您的配方或工作流程输入 Schema 生成合成输入,无需手动即可获得多样化的测试案例。

  • 从 JSON Schema 定义生成测试输入
  • 多样化、真实的资料用于有意义的比较
  • 无需手动建立测试案例
  • 同时支援配方和工作流程 Schema

运作方式

从设定到结果只需四步

1

选择模式

选择配方对配方、模型对模型、工作流程比较或 A/B 路由。

2

添加输入

使用真实资料、从 Schema 生成合成输入,或提供您自己的测试案例。

3

执行 Bakeoff

两个变体同时执行。LLM 裁判独立为每个输出评分。

4

查看结果

查看分数、信赖区间、成本比较和优胜变体。

开始您的第一次 Bakeoff

用资料而非猜测,为每个使用案例找到最佳配方、模型或工作流程。