當您建立一個 AI recipe 時,如何知道它是最佳版本?當您選擇一個模型時,如何確定它適合這項任務?大多數團隊依賴直覺——執行幾次、目測輸出結果,然後繼續前進。這種方法適合原型開發,但不適合正式環境。
今天我們推出 bakeoffs:一個內建系統,用於透過嚴謹的自動化評估來比較 AI recipes、模型和整個工作流程。
什麼是 bakeoff?
Bakeoff 會將相同的輸入透過兩個或更多 AI 配置執行並對結果評分。評分由獨立的 LLM 評審進行——而非產生輸出的模型——因此評估盡可能客觀。
您可以在六種模式中進行比較:
- Recipe vs. recipe — 兩個不同的 recipes 處理相同的輸入
- Model vs. model — 相同的 recipe 在不同 LLM 供應商上執行(例如 Claude vs. GPT)
- Full matrix — 在單一評估網格中比較每個 recipe × 每個模型的組合
- Workflow vs. workflow — 完整的端到端工作流程執行並排比較
- Workflow model vs. model — 相同的工作流程在各個步驟中使用不同的 LLM 供應商執行
- A/B test — 即時流量分配,將實際的 recipe 執行路由到兩個變體之間
評分機制
每個輸出都由 LLM 評審根據品質、準確性、相關性和完整性等面向進行評分。
為了提高信賴度,可啟用多評審模式,使用 2-3 位獨立評審。JieGou 使用 Kendall’s tau 和 Spearman’s rho 等級相關係數計算評審間的一致性,讓您了解評審是否達成共識或存在分歧。結果包含 95% 信賴區間和標準差,告訴您結果何時具有統計意義,何時僅是雜訊。
合成輸入
沒有足夠的真實資料進行有意義的比較?合成輸入生成器可從您的 recipe 或工作流程輸入 schema 建立多樣化的測試案例。它讀取 JSON Schema 定義——欄位名稱、類型、描述和限制——並產生涵蓋各種情境的真實輸入。
這對於尚未累積實際使用資料的新 recipes 特別有用。
A/B test 路由
對於已在正式環境中的 recipes 和工作流程,bakeoffs 支援即時 A/B test 路由。流量在兩個變體之間分配,JieGou 使用卡方統計檢定追蹤效能。當一個變體達到統計顯著性時,路由會自動停止將流量發送到表現較差的變體。
路由決策會快取在 Redis 中以確保一致性——同一使用者在多次請求中會看到相同的變體。
Bakeoff 範本
設定一個 bakeoff——選擇對照組、配置評審、選擇輸入 schemas——需要仔細思考。範本讓您能夠儲存 bakeoff 配置並在稍後重複使用,這樣您就不必在每次想要重新評估時重複這些設定工作。
範本支援可見性範圍設定:保持私密、與您的部門共享,或在整個帳號中開放使用。當您的團隊為特定使用案例建立標準評估方法時,將其儲存為範本可確保每個人都能進行一致的評估。
何時使用 bakeoffs
Bakeoffs 在以下情況最有價值:
- 選擇模型 — 您正在推出新的 recipe,希望根據輸出品質(而非假設)在 Claude、GPT 和 Gemini 之間做選擇
- 迭代提示詞 — 您已重寫 recipe 的提示詞,並希望在正式推出前驗證新版本確實更好
- 優化成本 — 更便宜的模型可能在某些任務上產生相當的輸出,但您需要資料來證明
- 比較工作流程 — 兩種不同的自動化策略產生不同的輸出,您需要知道哪個在端到端效能上更好
適用方案
Recipe 和模型 bakeoffs 適用於 Pro 方案。工作流程 bakeoffs 和 A/B test 路由適用於 Enterprise 方案。深入了解 bakeoffs 或開始免費試用。