GPT-5 in preview. Claude 4.6 GA. Gemini 2.5 Pro. Llama 4 open-weight. Every platform now supports multiple models — only JieGou lets you prove which is best on your data.
Bakeoff 模式
六種方式評估您的 AI
從簡單的配方比較到即時流量路由,選擇適合您需求的評估方式。
以相同輸入比較兩個不同的配方
相同配方,不同 LLM 供應商或模型
2-3 個獨立 LLM 裁判,共識評分
完整的端到端工作流程比較
具有統計自動停止的即時流量分割
從輸入 Schema 自動生成測試資料
配方比較
配方對配方,模型對模型
使用相同輸入分別執行不同配方或在不同模型上執行同一配方。並列查看輸出,讓 LLM 裁判自動為每個結果在品質、準確度和相關性上評分。
- 以相同輸入比較兩個配方
- 在不同 LLM 供應商間測試同一配方
- 並列輸出顯示,含差異標記
- LLM 裁判自動為每個輸出評分
多裁判評估
具有統計信心的共識評分
使用二至三個獨立 LLM 裁判來評估輸出。JieGou 使用 Kendall tau 和 Spearman rho 計算裁判間一致性,並報告 95% 信賴區間,讓您知道結果何時具有統計意義。
- 每次評估 2-3 個獨立 LLM 裁判
- Kendall tau 和 Spearman rho 相關性
- 95% 信賴區間及標準差
- 含多裁判乘數的成本估算
工作流程 Bakeoff
端到端比較完整工作流程
超越單一配方。讓完整工作流程互相對決,比較端到端輸出品質、執行時間和成本。非常適合在確定方案前評估不同的自動化策略。
- 含 Token 追蹤的完整工作流程執行
- 比較總成本和執行時間
- 端到端輸出品質評分
- 企業方案可用
A/B 測試路由
具有自動停止的即時流量分割
在配方或工作流程變體間路由即時執行流量。JieGou 使用卡方統計檢定追蹤效能,並在優勝者達到統計顯著性時自動停止路由到劣勢變體。
- 在兩個變體間分割即時流量
- 卡方統計檢定確認顯著性
- 確定優勝者時自動停止
- Redis 快取路由決策確保一致性
合成輸入
從 Schema 自動生成測試資料
沒有足夠的真實資料進行有意義的比較?JieGou 從您的配方或工作流程輸入 Schema 生成合成輸入,無需手動即可獲得多樣化的測試案例。
- 從 JSON Schema 定義生成測試輸入
- 多樣化、真實的資料用於有意義的比較
- 無需手動建立測試案例
- 同時支援配方和工作流程 Schema
運作方式
從設定到結果只需四步
選擇模式
選擇配方對配方、模型對模型、工作流程比較或 A/B 路由。
添加輸入
使用真實資料、從 Schema 生成合成輸入,或提供您自己的測試案例。
執行 Bakeoff
兩個變體同時執行。LLM 裁判獨立為每個輸出評分。
查看結果
查看分數、信賴區間、成本比較和優勝變體。