推出 Bakeoffs:比較 AI Recipes、模型與工作流程

當您建立一個 AI recipe 時,如何知道它是最佳版本?當您選擇一個模型時,如何確定它適合這項任務?大多數團隊依賴直覺——執行幾次、目測輸出結果,然後繼續前進。這種方法適合原型開發,但不適合正式環境。

今天我們推出 bakeoffs:一個內建系統,用於透過嚴謹的自動化評估來比較 AI recipes、模型和整個工作流程。

什麼是 bakeoff?

Bakeoff 會將相同的輸入透過兩個或更多 AI 配置執行並對結果評分。評分由獨立的 LLM 評審進行——而非產生輸出的模型——因此評估盡可能客觀。

您可以在六種模式中進行比較:

每個輸出都由 LLM 評審根據品質、準確性、相關性和完整性等面向進行評分。

為了提高信賴度,可啟用多評審模式,使用 2-3 位獨立評審。JieGou 使用 Kendall’s tau 和 Spearman’s rho 等級相關係數計算評審間的一致性,讓您了解評審是否達成共識或存在分歧。結果包含 95% 信賴區間和標準差,告訴您結果何時具有統計意義,何時僅是雜訊。

沒有足夠的真實資料進行有意義的比較?合成輸入生成器可從您的 recipe 或工作流程輸入 schema 建立多樣化的測試案例。它讀取 JSON Schema 定義——欄位名稱、類型、描述和限制——並產生涵蓋各種情境的真實輸入。

這對於尚未累積實際使用資料的新 recipes 特別有用。

對於已在正式環境中的 recipes 和工作流程,bakeoffs 支援即時 A/B test 路由。流量在兩個變體之間分配,JieGou 使用卡方統計檢定追蹤效能。當一個變體達到統計顯著性時,路由會自動停止將流量發送到表現較差的變體。

路由決策會快取在 Redis 中以確保一致性——同一使用者在多次請求中會看到相同的變體。

設定一個 bakeoff——選擇對照組、配置評審、選擇輸入 schemas——需要仔細思考。範本讓您能夠儲存 bakeoff 配置並在稍後重複使用,這樣您就不必在每次想要重新評估時重複這些設定工作。

範本支援可見性範圍設定:保持私密、與您的部門共享,或在整個帳號中開放使用。當您的團隊為特定使用案例建立標準評估方法時,將其儲存為範本可確保每個人都能進行一致的評估。

Bakeoffs 在以下情況最有價值:

Recipe 和模型 bakeoffs 適用於 Pro 方案。工作流程 bakeoffs 和 A/B test 路由適用於 Enterprise 方案。深入了解 bakeoffs 或開始免費試用。