Skip to content

GPT-5 in preview. Claude 4.6 GA. Gemini 2.5 Pro. Llama 4 open-weight. Every platform now supports multiple models — only JieGou lets you prove which is best on your data.

不只是執行 AI —
更要衡量效果

並列比較配方、模型和整個工作流程。使用 LLM 裁判評分、多裁判共識和即時 A/B 路由,為每個使用案例找到最佳配置。

Bakeoff 模式

六種方式評估您的 AI

從簡單的配方比較到即時流量路由,選擇適合您需求的評估方式。

配方對配方 Pro

以相同輸入比較兩個不同的配方

配方對模型 Pro

相同配方,不同 LLM 供應商或模型

多裁判 Pro

2-3 個獨立 LLM 裁判,共識評分

工作流程對工作流程 Enterprise

完整的端到端工作流程比較

A/B 測試路由 Enterprise

具有統計自動停止的即時流量分割

合成輸入 Pro

從輸入 Schema 自動生成測試資料

配方比較

配方對配方,模型對模型

使用相同輸入分別執行不同配方或在不同模型上執行同一配方。並列查看輸出,讓 LLM 裁判自動為每個結果在品質、準確度和相關性上評分。

  • 以相同輸入比較兩個配方
  • 在不同 LLM 供應商間測試同一配方
  • 並列輸出顯示,含差異標記
  • LLM 裁判自動為每個輸出評分

多裁判評估

具有統計信心的共識評分

使用二至三個獨立 LLM 裁判來評估輸出。JieGou 使用 Kendall tau 和 Spearman rho 計算裁判間一致性,並報告 95% 信賴區間,讓您知道結果何時具有統計意義。

  • 每次評估 2-3 個獨立 LLM 裁判
  • Kendall tau 和 Spearman rho 相關性
  • 95% 信賴區間及標準差
  • 含多裁判乘數的成本估算

工作流程 Bakeoff

端到端比較完整工作流程

超越單一配方。讓完整工作流程互相對決,比較端到端輸出品質、執行時間和成本。非常適合在確定方案前評估不同的自動化策略。

  • 含 Token 追蹤的完整工作流程執行
  • 比較總成本和執行時間
  • 端到端輸出品質評分
  • 企業方案可用

A/B 測試路由

具有自動停止的即時流量分割

在配方或工作流程變體間路由即時執行流量。JieGou 使用卡方統計檢定追蹤效能,並在優勝者達到統計顯著性時自動停止路由到劣勢變體。

  • 在兩個變體間分割即時流量
  • 卡方統計檢定確認顯著性
  • 確定優勝者時自動停止
  • Redis 快取路由決策確保一致性

合成輸入

從 Schema 自動生成測試資料

沒有足夠的真實資料進行有意義的比較?JieGou 從您的配方或工作流程輸入 Schema 生成合成輸入,無需手動即可獲得多樣化的測試案例。

  • 從 JSON Schema 定義生成測試輸入
  • 多樣化、真實的資料用於有意義的比較
  • 無需手動建立測試案例
  • 同時支援配方和工作流程 Schema

運作方式

從設定到結果只需四步

1

選擇模式

選擇配方對配方、模型對模型、工作流程比較或 A/B 路由。

2

添加輸入

使用真實資料、從 Schema 生成合成輸入,或提供您自己的測試案例。

3

執行 Bakeoff

兩個變體同時執行。LLM 裁判獨立為每個輸出評分。

4

查看結果

查看分數、信賴區間、成本比較和優勝變體。

開始您的第一次 Bakeoff

用資料而非猜測,為每個使用案例找到最佳配方、模型或工作流程。