GPT-5 in preview. Claude 4.6 GA. Gemini 2.5 Pro. Llama 4 open-weight. Every platform now supports multiple models — only JieGou lets you prove which is best on your data.
Bakeoff 模式
六种方式评估您的 AI
从简单的配方比较到即时流量路由,选择适合您需求的评估方式。
以相同输入比较两个不同的配方
相同配方,不同 LLM 供应商或模型
2-3 个独立 LLM 裁判,共识评分
完整的端到端工作流程比较
具有统计自动停止的即时流量分割
从输入 Schema 自动生成测试资料
配方比较
配方对配方,模型对模型
使用相同输入分别执行不同配方或在不同模型上执行同一配方。并列查看输出,让 LLM 裁判自动为每个结果在品质、准确度和相关性上评分。
- 以相同输入比较两个配方
- 在不同 LLM 供应商间测试同一配方
- 并列输出显示,含差异标记
- LLM 裁判自动为每个输出评分
多裁判评估
具有统计信心的共识评分
使用二至三个独立 LLM 裁判来评估输出。JieGou 使用 Kendall tau 和 Spearman rho 计算裁判间一致性,并报告 95% 信赖区间,让您知道结果何时具有统计意义。
- 每次评估 2-3 个独立 LLM 裁判
- Kendall tau 和 Spearman rho 相关性
- 95% 信赖区间及标准差
- 含多裁判乘数的成本估算
工作流程 Bakeoff
端到端比较完整工作流程
超越单一配方。让完整工作流程互相对决,比较端到端输出品质、执行时间和成本。非常适合在确定方案前评估不同的自动化策略。
- 含 Token 追踪的完整工作流程执行
- 比较总成本和执行时间
- 端到端输出品质评分
- 企业方案可用
A/B 测试路由
具有自动停止的即时流量分割
在配方或工作流程变体间路由即时执行流量。JieGou 使用卡方统计检定追踪效能,并在优胜者达到统计显著性时自动停止路由到劣势变体。
- 在两个变体间分割即时流量
- 卡方统计检定确认显著性
- 确定优胜者时自动停止
- Redis 快取路由决策确保一致性
合成输入
从 Schema 自动生成测试资料
没有足够的真实资料进行有意义的比较?JieGou 从您的配方或工作流程输入 Schema 生成合成输入,无需手动即可获得多样化的测试案例。
- 从 JSON Schema 定义生成测试输入
- 多样化、真实的资料用于有意义的比较
- 无需手动建立测试案例
- 同时支援配方和工作流程 Schema
运作方式
从设定到结果只需四步
选择模式
选择配方对配方、模型对模型、工作流程比较或 A/B 路由。
添加输入
使用真实资料、从 Schema 生成合成输入,或提供您自己的测试案例。
执行 Bakeoff
两个变体同时执行。LLM 裁判独立为每个输出评分。
查看结果
查看分数、信赖区间、成本比较和优胜变体。